ShobdoSetu: ベンガル語長編音声認識と話者ダイアリゼーションのデータ中心フレームワーク

arXiv cs.CL / 2026/3/23

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • ShobdoSetuは、資源が不足しているベンガル語の長編自動音声認識および話者ダイアリゼーションに対処するデータ中心のフレームワークを提示します。
  • このアプローチは、ベンガル語のYouTubeオーディオブックとドラマから高品質なトレーニングコーパスを構築し、LLM支援の言語正規化、ファジーマッチングベースのチャンク境界検証、およびこもり音域データ拡張を組み込みます。
  • 著者らは、tugstugi/whisper-mediumモデルを約21,000データポイントでビーム幅5でファインチューニングし、公開リーダーボードでWER 16.751、プライベートテストセットでWER 15.551を達成しました。
  • 話者ダイアリゼーションについては、pyannote.audioのセグメンテーションモデルを極端に低リソースな設定(訓練データ10ファイル)でファインチューニングし、公開リーダーボードでDER 0.19974、プライベートテストセットでDER 0.26723を達成しました。
  • 結果は、丁寧なデータ設計とドメイン適応型ファインチューニングによって、大規模な注釈付きコーパスに依存することなく、競争力のあるベンガル語音声処理性能を実現できることを示唆しています。

要約: ベンガル語は2億3000万人を超える人々によって話されていますが、自動音声認識(ASR)および話者ダイアリゼーション研究の分野では依然として大きく十分に扱われていません。本論文では、DL Sprint 4.0 バンガル語長文音声認識(タスク1)およびバンガル語話者ダイアリゼーションチャレンジ(タスク2)向けのシステムを提示します。タスク1では、ベンガル語のYouTubeオーディオブックおよびドラマから高品質の訓練コーパスを構築するデータ中心のパイプラインを提案します \cite{tabib2026bengaliloop}、LLM支援による言語正規化、ファジーマッチングに基づくチャンク境界検証、およびマッフルゾーン拡張を組み込んでいます。およそ21,000データポイントをビームサイズ5で用いて、\texttt{tugstugi/whisper-medium}モデルを微調整した結果、公開リーダーボードでの単語誤り率(WER)は16.751、非公開テストセットでは15.551を達成しました。タスク2では、極端に低リソースの設定(訓練ファイル10個)下で、pyannote.audio コミュニティ-1 のセグメンテーションモデルをターゲットを絞ったハイパーパラメータ最適化で微調整し、公開リーダーボードでの話者ダイアリゼーション誤差率(DER)は0.19974、非公開テストセットでは0.26723を達成しました。私たちの結果は、綿密なデータエンジニアリングとドメイン適応型の微調整が、大規模な注釈付きコーパスがなくても、ベンガル語の音声処理に競争力のある性能をもたらすことを示しています。

返却形式: {"translated": "翻訳されたHTML"}