音声・視覚対応の大規模言語モデルは本当に見ることや聞くことができるのか？

arXiv cs.AI / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、音声・視覚対応の大規模言語モデル（AVLLM）に対する最初のメカニズムに基づく解釈可能性研究として、層をまたいで音声特徴と視覚特徴がどのように変化し、どのように融合してテキスト出力が生成されるかを追跡する。
AVLLMは中間層で豊かな音声セマンティクスを学習するものの、音声が視覚と衝突する場合には、それらの音声能力が最終出力に現れないことが多いことを見いだす。
プロービングにより潜在的な音声情報は依然として存在するが、後段の融合層が視覚表現を不釣り合いに優先し、音声の手がかりを抑制していることが示される。
本研究は、このモダリティの偏りが学習に起因するとしており、モデルの音声挙動がその視覚・言語の基盤モデルと非常によく一致することから、音声に対する監督による追加のアラインメントは限定的であることを示唆する。
全体として、AVLLMにおける根本的なモダリティ・バイアスを特定し、多モーダルLLMが音声と視覚を統合する仕組みをメカニズムの観点から説明する。

Abstract

音声・映像大規模言語モデル（AVLLM）は、多モーダル知覚のための統一的なインターフェースとして登場しつつあります。本研究では、AVLLMに関する初めての機構的解釈可能性（mechanistic interpretability）に関する調査を提示し、AVLLMの異なる層を通じて音声特徴と視覚特徴がどのように進化し、どのように融合して、最終的なテキスト出力が生成されるのかを解析します。その結果、AVLLMは中間層において豊かな音声意味論をエンコードしているにもかかわらず、音声が視覚と競合するときには、その能力は最終的なテキスト生成にはほとんど表出しないことがわかりました。プロービング解析により、有用な潜在音声情報は存在するものの、より深い融合層では、音声の手がかりを抑制しがちな視覚表現が不釣り合いに優先されることが示されます。さらに、この偏りが学習に由来することを追跡しました。AVLLMの音声に関する振る舞いは、その視覚-言語のベースモデルと強く一致しており、音声に対する教師信号への追加的な整合（alignment）が限定的であることを示唆しています。以上の知見は、AVLLMにおける基本的なモダリティ・バイアスを明らかにし、多モーダルLLMが音声と視覚をどのように統合するのかについて新たな機構的洞察を提供します。