音声・視覚対応の大規模言語モデルは本当に見ることや聞くことができるのか?
arXiv cs.AI / 2026/4/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、音声・視覚対応の大規模言語モデル(AVLLM)に対する最初のメカニズムに基づく解釈可能性研究として、層をまたいで音声特徴と視覚特徴がどのように変化し、どのように融合してテキスト出力が生成されるかを追跡する。
- AVLLMは中間層で豊かな音声セマンティクスを学習するものの、音声が視覚と衝突する場合には、それらの音声能力が最終出力に現れないことが多いことを見いだす。
- プロービングにより潜在的な音声情報は依然として存在するが、後段の融合層が視覚表現を不釣り合いに優先し、音声の手がかりを抑制していることが示される。
- 本研究は、このモダリティの偏りが学習に起因するとしており、モデルの音声挙動がその視覚・言語の基盤モデルと非常によく一致することから、音声に対する監督による追加のアラインメントは限定的であることを示唆する。
- 全体として、AVLLMにおける根本的なモダリティ・バイアスを特定し、多モーダルLLMが音声と視覚を統合する仕組みをメカニズムの観点から説明する。



