要旨: カスケード型の対話システムからエンドツーエンド(E2E)音声Large Language Models(LLM)への移行は、遅延と準言語的(パラ言語的)モデリングを改善しますが、E2Eモデルはテキストベースの対応物に比べて大きな性能劣化を示すことが多いです。標準的な教師あり微調整(SFT)および強化学習(RL)の訓練手法では、このギャップを埋めることができません。そこで本研究では、Speech LLMの能力をテキストベースの対応物に体系的に整合させるための、新しいCross-Modal On-Policy DistillationフレームワークであるX-OPDを提案します。X-OPDにより、Speech LLMはオンポリシーのロールアウトを通じて自身の分布を探索でき、このときテキストベースの教師モデルがこれらの軌跡を評価し、トークンレベルのフィードバックを提供します。これにより、教師の能力を、生徒のマルチモーダル表現へと実質的に蒸留できます。複数のベンチマークにわたる大規模な実験により、X-OPDが複雑なタスクにおけるギャップを大幅に縮小しつつ、モデル本来の能力を維持することが示されます。
X-OPD:音声LLMにおける能力整合のためのクロスモーダル・オンポリシー蒸留
arXiv cs.AI / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、エンドツーエンドのSpeech LLMがレイテンシやパラ言語的モデリングを改善する一方で、テキストベースのLLMに対して大きな性能ギャップが依然として存在すると論じている。
- 提案手法X-OPD(Cross-Modal On-Policy Distillation)は、オンポリシーのロールアウトを用いることで、音声の学生モデルが自身の出力分布を探索できるようにする。
- テキストベースの教師モデルが学生の軌跡を評価し、トークン単位のフィードバックを与えることで、教師の能力を学生のマルチモーダル表現へ蒸留する。
- 複数のベンチマークでの実験により、X-OPDは複雑な課題において能力ギャップを大幅に縮小しつつ、学生が持つ既存の能力を概ね維持することが示される。
- 本研究は、X-OPDを標準的なSFTやRL手法よりも、音声LLMの能力をテキストLLM対応へ整合させるために改善する学習アプローチとして位置付ける。




