視覚言語モデルにおけるソース・モダリティ監視

arXiv cs.CL / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、「ソース・モダリティ監視」として、多様な入力ソースのうち、どこから得られた情報かをマルチモーダルモデルが追跡し伝達できる能力を定義・検証している。
その能力を、より一般的な「バインディング（束縛）の問題」の一例として位置づけ、プロンプト中の「image」のような語を、実際の画像などの入力構成要素へ結び付ける方法を、文法的（構文的）・意味的な手がかりの観点で調べている。
11のビジョン言語モデルを対象にした情報検索実験では、構文的・意味的の両方が重要だが、モダリティ同士が分布的に大きく異なる場合には意味的手がかりが優勢になりやすいことが示された。
著者らは、こうした結び付けメカニズムがモデルの頑健性に与える影響と、入力モダリティを確実に追跡して扱う必要のある今後のマルチモーダルなエージェント型システムへの示唆を論じている。