音声LLMは聞かない？モダリティ仲裁の言語横断研究

arXiv cs.CL / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

この研究では、音声対応の言語モデルが「音声とテキストの競合」に直面した場合、たとえ明示的に「音声を信頼する」よう指示されていても、音声に従うよりも競合するテキストに従うことがはるかに多いことが分かりました。
ALMEを導入します。これは8言語にわたる57,602件の音声-テキスト競合刺激からなる、多言語の制御されたデータセットであり、さらに「テキスト優越度（Text Dominance Ratio: TDR）」を提案して、音声信頼の指示下でモデルが競合テキストをどれくらいの頻度で参照するかを定量化します。
実験の結果、Gemini 2.0 FlashおよびGPT-4oは、音声をその書き起こし（トランスクリプト）に置き換えるベースラインに比べてTDRが10〜26倍高く、「テキスト優越」は単なる情報量以上の要因によって引き起こされることが示されました。
論文は、この効果が意思決定時における「仲裁の到達可能性（arbitration accessibility）」の非対称性によるものだと主張します。具体的には、トランスクリプトを意図的に破損するとTDRが低下し、モデルに明示的な書き起こしを強制するとTDRが増加します。
微調整のアブレーション結果からは、仲裁行動は音声入力経路だけでなく、LLMの推論により強く依存することが示唆されます。さらに、複数の音声LLMにおいて、モデル間・言語間のばらつきがあっても同様の質的パターンが観察されました。

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

機械学習・ディープラーニングにおける数学の必要性

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Santa Augmentcode Intent Ep.6

Dev.to

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

Dev.to

音声LLMは聞かない？モダリティ仲裁の言語横断研究

要点

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

機械学習・ディープラーニングにおける数学の必要性

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Santa Augmentcode Intent Ep.6

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer