要旨: 大規模言語モデル(LLM)を自動音声認識(ASR)に統合することは、支配的なパラダイムとなっています。近年のLLMベースのASRモデルは公開ベンチマーク上で有望な性能を示しているものの、認識品質とレイテンシおよびオーバーヘッドのバランスをとることは依然として難しく、さらに幻覚(ハルシネーション)が現実の導入を一層制限しています。本研究では、エントロピー割り当ての観点からLLMベースASRを改めて見直し、学習パラダイムが音声エンコーダとLLMの間でどのようにエントロピー低減を配分するかを特徴づけるための3つの指標を導入します。従来のアプローチにおけるエントロピー割り当ての非効率を改善するため、能力境界(capability boundary)への注意に基づく、原理に沿った多段階学習戦略を提案します。これにより、パラメータ効率と幻覚の頑健性を最適化します。具体的には、音声-テキストのモダリティギャップを緩和するように事前学習戦略を再設計し、さらにアラインメントと共同SFTの間に反復的な非同期SFT段階を導入することで、機能的なデカップリング(分離)を維持し、エンコーダ表現のドリフトを抑制します。マンダリンおよび英語のベンチマークでの実験により、本手法は2.3Bパラメータのみで最先端モデルと競合する性能を達成できることが示され、加えてデカップリング志向の設計により幻覚を効果的に緩和できることも確認されました。
LLMベースASRにおけるエントロピー配分の再考:音声エンコーダとLLMの力学を理解する
arXiv cs.CL / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は「エントロピー配分」の観点からLLMベースASRを分析し、学習によって不確実性が音声エンコーダ側とLLM側のどちらでどれだけ低減されるかを定量化するための3つの指標を提案する。
- 現行の学習パラダイムにおける非効率性を、認識品質、レイテンシ/オーバーヘッド、幻覚(ハルシネーション)率の間に生じるトレードオフの主要因として特定する。
- 著者らは、能力境界を意識したマルチステージ学習戦略を提案する。これにより (a) 事前学習を再設計して音声—テキストのモダリティギャップを縮小し、(b) アラインメント学習と共同SFTの間で反復的かつ非同期のSFTを行うことで、エンコーダ表現の過度なドリフトを防ぐ。
- 北京語および英語のベンチマークでの実験では、2.3Bパラメータのみを使用しつつ、最先端システムと競争力のある性能が示される。さらに、エンコーダとLLMのデカップリングによって幻覚の抑制が改善される。
- 全体として、本研究は、実運用における制約を踏まえてLLMベースASRをより効率的かつ頑健にすることを目的とした、原理に基づく学習フレームワークを提示する。




