音声-文字変換の因果的アライメントによるストリーミング翻訳と転写
arXiv cs.CL / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、READ/WRITE の決定を確率的 WAIT トークン機構でエンコードする、ポリシーに依存しないエンドツーエンドの同時音声から文字への翻訳とストリーミング転写を実現するモデル Hikari を提案する。
- デコーダー・タイム・ダイレーションを導入し、自己回帰のオーバーヘッドを低減させ、訓練分布のバランスをとることで効率を向上させる。
- 遅延からの回復を訓練する監督付きファインチューニング戦略を提案し、品質-レイテンシのトレードオフを大幅に改善する。
- 英語→日本語、ドイツ語、ロシア語の評価で、低遅延・高遅延の両レジームにおいて新たな最先端 BLEU スコアを達成し、最近のベースラインを上回った。