LLMベースASRにおけるエントロピー配分の再考：音声エンコーダとLLMの力学を理解する

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「エントロピー配分」の観点からLLMベースASRを分析し、学習によって不確実性が音声エンコーダ側とLLM側のどちらでどれだけ低減されるかを定量化するための3つの指標を提案する。
現行の学習パラダイムにおける非効率性を、認識品質、レイテンシ／オーバーヘッド、幻覚（ハルシネーション）率の間に生じるトレードオフの主要因として特定する。
著者らは、能力境界を意識したマルチステージ学習戦略を提案する。これにより (a) 事前学習を再設計して音声—テキストのモダリティギャップを縮小し、(b) アラインメント学習と共同SFTの間で反復的かつ非同期のSFTを行うことで、エンコーダ表現の過度なドリフトを防ぐ。
北京語および英語のベンチマークでの実験では、2.3Bパラメータのみを使用しつつ、最先端システムと競争力のある性能が示される。さらに、エンコーダとLLMのデカップリングによって幻覚の抑制が改善される。
全体として、本研究は、実運用における制約を踏まえてLLMベースASRをより効率的かつ頑健にすることを目的とした、原理に基づく学習フレームワークを提示する。

要旨: 大規模言語モデル（LLM）を自動音声認識（ASR）に統合することは、支配的なパラダイムとなっています。近年のLLMベースのASRモデルは公開ベンチマーク上で有望な性能を示しているものの、認識品質とレイテンシおよびオーバーヘッドのバランスをとることは依然として難しく、さらに幻覚（ハルシネーション）が現実の導入を一層制限しています。本研究では、エントロピー割り当ての観点からLLMベースASRを改めて見直し、学習パラダイムが音声エンコーダとLLMの間でどのようにエントロピー低減を配分するかを特徴づけるための3つの指標を導入します。従来のアプローチにおけるエントロピー割り当ての非効率を改善するため、能力境界（capability boundary）への注意に基づく、原理に沿った多段階学習戦略を提案します。これにより、パラメータ効率と幻覚の頑健性を最適化します。具体的には、音声-テキストのモダリティギャップを緩和するように事前学習戦略を再設計し、さらにアラインメントと共同SFTの間に反復的な非同期SFT段階を導入することで、機能的なデカップリング（分離）を維持し、エンコーダ表現のドリフトを抑制します。マンダリンおよび英語のベンチマークでの実験により、本手法は2.3Bパラメータのみで最先端モデルと競合する性能を達成できることが示され、加えてデカップリング志向の設計により幻覚を効果的に緩和できることも確認されました。

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

SHIFT丹下社長「新入社員にも『AIで君の仕事はなくなる』と伝え、考えさせる」

日経XTECH

LLMベースASRにおけるエントロピー配分の再考：音声エンコーダとLLMの力学を理解する

要点

関連記事

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

SHIFT丹下社長「新入社員にも『AIで君の仕事はなくなる』と伝え、考えさせる」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

SHIFT丹下社長「新入社員にも『AIで君の仕事はなくなる』と伝え、考えさせる」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ