要約: ベンガル語は2億3000万人を超える人々によって話されていますが、自動音声認識(ASR)および話者ダイアリゼーション研究の分野では依然として大きく十分に扱われていません。本論文では、DL Sprint 4.0 バンガル語長文音声認識(タスク1)およびバンガル語話者ダイアリゼーションチャレンジ(タスク2)向けのシステムを提示します。タスク1では、ベンガル語のYouTubeオーディオブックおよびドラマから高品質の訓練コーパスを構築するデータ中心のパイプラインを提案します \cite{tabib2026bengaliloop}、LLM支援による言語正規化、ファジーマッチングに基づくチャンク境界検証、およびマッフルゾーン拡張を組み込んでいます。およそ21,000データポイントをビームサイズ5で用いて、\texttt{tugstugi/whisper-medium}モデルを微調整した結果、公開リーダーボードでの単語誤り率(WER)は16.751、非公開テストセットでは15.551を達成しました。タスク2では、極端に低リソースの設定(訓練ファイル10個)下で、pyannote.audio コミュニティ-1 のセグメンテーションモデルをターゲットを絞ったハイパーパラメータ最適化で微調整し、公開リーダーボードでの話者ダイアリゼーション誤差率(DER)は0.19974、非公開テストセットでは0.26723を達成しました。私たちの結果は、綿密なデータエンジニアリングとドメイン適応型の微調整が、大規模な注釈付きコーパスがなくても、ベンガル語の音声処理に競争力のある性能をもたらすことを示しています。
返却形式: {"translated": "翻訳されたHTML"}

