POTSA：音声対テキスト翻訳のためのクロスリンガル音声アラインメントフレームワーク

arXiv cs.CL / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、クロスリンガルの並列音声ペアと最適輸送（Optimal Transport）を用いて言語間の意味的共通性を活用する、音声対テキスト翻訳のためのクロスリンガル音声アラインメントフレームワークPOTSAを提案する。
POTSAは、音声表現の粗いアラインメントのためのバイアス補償（Bias Compensation）モジュールと、Q-Formerを介して適用されるトークンレベルの最適輸送制約を組み合わせることで、きめ細かな整合性を実現する。
さらに、意味的に有益なアラインメントへの寄与が大きいと見込まれる層に対してのみOT制約を選択的に適用するための層スケジューリング戦略を用いる。
FLEURSでの実験では最先端の結果を報告しており、5つの共通言語で+1.29 BLEU、ゼロショット言語で+2.93 BLEUを達成しつつ、言語あたり必要な並列音声は10時間のみである。

要旨: 音声大規模言語モデルは、多言語の音声からテキストへの翻訳において画期的な成果を達成している。しかし、既存の手法の多くは、ソース言語間に存在する意味的な共通性を見落としがちで、その結果、翻訳性能が偏ってしまう。そこで本研究では、POTSA（Speech Alignment のための Parallel Optimal Transport）を提案する。これは、異言語の並列音声ペアと最適輸送（Optimal Transport）に基づく新しい枠組みであり、高リソースと低リソースの翻訳ギャップを埋めることを目的として設計されている。まず、初期の音声表現を大まかに整合させるための Bias Compensation モジュールを導入する。次に、並列ペアを用いて Q-Former に対してトークンレベルの OT 制約を課し、きめ細かな表現の一貫性を確立する。そして、意味的に有益な層に OT 制約を集中させるために、層スケジューリング戦略を適用する。FLEURS による実験の結果、本手法は SOTA の性能を達成し、5つの共通言語で +1.29 BLEU、ゼロショット言語で +2.93 BLEU を示す。さらに、言語ごとに並列音声を 10 時間だけ使用している。