視覚言語モデルは本当に視覚推論を行っているのか?「モダリティギャップ」を精密に検証する研究
arXiv cs.CL / 2026/4/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この研究は、視覚言語モデル(VLM)が本当に視覚に根ざした推論をしているのか、それとも主にテキスト基盤の推論能力に依存しているのかを問い直しています。
- CrossMathという制御されたマルチモーダル・ベンチマークを提案し、タスクに関わる同一の情報をテキストのみ/画像のみ/画像+テキストの各形式で提示することで、モダリティ固有の影響を切り分けます。
- 最先端のVLMを幅広く評価した結果、「モダリティギャップ」が一貫して観測され、テキストのみでは性能が高い一方で、視覚情報を追加した画像+テキストでは多くの場合性能が低下します。
- これらの結果は、現在のVLMが主としてテキスト空間で推論を行い、視覚エビデンスを十分に根拠としていない可能性を示唆しています。
- さらに、CrossMathで厳選した学習データでVLMを微調整すると、各モダリティおよび共同モダリティで推論性能が向上し、一般的な視覚推論タスク2つでも堅実な改善が得られます(コードはGitHubで公開)。



