ShobdoSetu: ベンガル語長編音声認識と話者ダイアリゼーションのデータ中心フレームワーク

arXiv cs.CL / 2026/3/23

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

ShobdoSetuは、資源が不足しているベンガル語の長編自動音声認識および話者ダイアリゼーションに対処するデータ中心のフレームワークを提示します。
このアプローチは、ベンガル語のYouTubeオーディオブックとドラマから高品質なトレーニングコーパスを構築し、LLM支援の言語正規化、ファジーマッチングベースのチャンク境界検証、およびこもり音域データ拡張を組み込みます。
著者らは、tugstugi/whisper-mediumモデルを約21,000データポイントでビーム幅5でファインチューニングし、公開リーダーボードでWER 16.751、プライベートテストセットでWER 15.551を達成しました。
話者ダイアリゼーションについては、pyannote.audioのセグメンテーションモデルを極端に低リソースな設定（訓練データ10ファイル）でファインチューニングし、公開リーダーボードでDER 0.19974、プライベートテストセットでDER 0.26723を達成しました。
結果は、丁寧なデータ設計とドメイン適応型ファインチューニングによって、大規模な注釈付きコーパスに依存することなく、競争力のあるベンガル語音声処理性能を実現できることを示唆しています。

要約: ベンガル語は2億3000万人を超える人々によって話されていますが、自動音声認識（ASR）および話者ダイアリゼーション研究の分野では依然として大きく十分に扱われていません。本論文では、DL Sprint 4.0 バンガル語長文音声認識（タスク1）およびバンガル語話者ダイアリゼーションチャレンジ（タスク2）向けのシステムを提示します。タスク1では、ベンガル語のYouTubeオーディオブックおよびドラマから高品質の訓練コーパスを構築するデータ中心のパイプラインを提案します \cite{tabib2026bengaliloop}、LLM支援による言語正規化、ファジーマッチングに基づくチャンク境界検証、およびマッフルゾーン拡張を組み込んでいます。およそ21,000データポイントをビームサイズ5で用いて、\texttt{tugstugi/whisper-medium}モデルを微調整した結果、公開リーダーボードでの単語誤り率（WER）は16.751、非公開テストセットでは15.551を達成しました。タスク2では、極端に低リソースの設定（訓練ファイル10個）下で、pyannote.audio コミュニティ-1 のセグメンテーションモデルをターゲットを絞ったハイパーパラメータ最適化で微調整し、公開リーダーボードでの話者ダイアリゼーション誤差率（DER）は0.19974、非公開テストセットでは0.26723を達成しました。私たちの結果は、綿密なデータエンジニアリングとドメイン適応型の微調整が、大規模な注釈付きコーパスがなくても、ベンガル語の音声処理に競争力のある性能をもたらすことを示しています。

返却形式: {"translated": "翻訳されたHTML"}

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Google Stitch「バイブデザイン」登場—自然言語でUIを作る時代へ

Innovatopia

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

Innovatopia

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

ShobdoSetu: ベンガル語長編音声認識と話者ダイアリゼーションのデータ中心フレームワーク

要点

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Google Stitch「バイブデザイン」登場—自然言語でUIを作る時代へ

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer