音声-文字変換の因果的アライメントによるストリーミング翻訳と転写

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、READ/WRITE の決定を確率的 WAIT トークン機構でエンコードする、ポリシーに依存しないエンドツーエンドの同時音声から文字への翻訳とストリーミング転写を実現するモデル Hikari を提案する。
デコーダー・タイム・ダイレーションを導入し、自己回帰のオーバーヘッドを低減させ、訓練分布のバランスをとることで効率を向上させる。
遅延からの回復を訓練する監督付きファインチューニング戦略を提案し、品質-レイテンシのトレードオフを大幅に改善する。
英語→日本語、ドイツ語、ロシア語の評価で、低遅延・高遅延の両レジームにおいて新たな最先端 BLEU スコアを達成し、最近のベースラインを上回った。

日経XTECH

日経XTECH

日経XTECH

日経XTECH

日経XTECH