音声LLMは聞かない?モダリティ仲裁の言語横断研究

arXiv cs.CL / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この研究では、音声対応の言語モデルが「音声とテキストの競合」に直面した場合、たとえ明示的に「音声を信頼する」よう指示されていても、音声に従うよりも競合するテキストに従うことがはるかに多いことが分かりました。
  • ALMEを導入します。これは8言語にわたる57,602件の音声-テキスト競合刺激からなる、多言語の制御されたデータセットであり、さらに「テキスト優越度(Text Dominance Ratio: TDR)」を提案して、音声信頼の指示下でモデルが競合テキストをどれくらいの頻度で参照するかを定量化します。
  • 実験の結果、Gemini 2.0 FlashおよびGPT-4oは、音声をその書き起こし(トランスクリプト)に置き換えるベースラインに比べてTDRが10〜26倍高く、「テキスト優越」は単なる情報量以上の要因によって引き起こされることが示されました。
  • 論文は、この効果が意思決定時における「仲裁の到達可能性(arbitration accessibility)」の非対称性によるものだと主張します。具体的には、トランスクリプトを意図的に破損するとTDRが低下し、モデルに明示的な書き起こしを強制するとTDRが増加します。
  • 微調整のアブレーション結果からは、仲裁行動は音声入力経路だけでなく、LLMの推論により強く依存することが示唆されます。さらに、複数の音声LLMにおいて、モデル間・言語間のばらつきがあっても同様の質的パターンが観察されました。