視覚言語モデルは本当に視覚推論を行っているのか?「モダリティギャップ」を精密に検証する研究

arXiv cs.CL / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この研究は、視覚言語モデル(VLM)が本当に視覚に根ざした推論をしているのか、それとも主にテキスト基盤の推論能力に依存しているのかを問い直しています。
  • CrossMathという制御されたマルチモーダル・ベンチマークを提案し、タスクに関わる同一の情報をテキストのみ/画像のみ/画像+テキストの各形式で提示することで、モダリティ固有の影響を切り分けます。
  • 最先端のVLMを幅広く評価した結果、「モダリティギャップ」が一貫して観測され、テキストのみでは性能が高い一方で、視覚情報を追加した画像+テキストでは多くの場合性能が低下します。
  • これらの結果は、現在のVLMが主としてテキスト空間で推論を行い、視覚エビデンスを十分に根拠としていない可能性を示唆しています。
  • さらに、CrossMathで厳選した学習データでVLMを微調整すると、各モダリティおよび共同モダリティで推論性能が向上し、一般的な視覚推論タスク2つでも堅実な改善が得られます(コードはGitHubで公開)。

Abstract

視覚言語モデル(VLM)における推論は、その下流タスクへの幅広い適用可能性により、近年大きな注目を集めています。とはいえ、VLMの優れた性能が、真に視覚に根ざした推論によるものなのか、それとも主としてテキスト的バックボーンが持つ推論能力に依存しているのかは、いまだ明確ではありません。そこで、これを体系的に測定するために、制御されたクロスモーダル比較のための新しいマルチモーダル推論ベンチマークであるCrossMathを提案します。具体的には、各問題をテキストのみ、画像のみ、画像+テキストの形式で構築し、タスクに関係する情報が同一であることを保証します。これは人手によるアノテータによって検証されています。この厳密なアラインメントにより、情報の不一致のような要因による混同を排除しつつ、モダリティ固有の推論の差異を効果的に切り離します。最先端のVLMに対する大規模な評価の結果、次の一貫した現象が明らかになりました。すなわち、テキスト推論と視覚推論の間には大きな性能差が存在する、ということです。特に、VLMはテキストのみの入力では高い性能を示す一方で、視覚データ(画像+テキスト)を組み込むと、テキストのみのベースラインと比べて性能が低下することがしばしばあります。これらの結果は、現在のVLMが推論を主としてテキスト空間で行っており、視覚的証拠への真の依存は限定的であることを示唆しています。この制限を緩和するために、VLMの微調整(fine-tuning)用としてCrossMathの学習セットを作成しました。実験的評価では、この学習セットで微調整することにより、個々のモダリティとそれらの組み合わせのすべてにおいて推論性能が大幅に向上し、さらに2つの一般的な視覚推論タスクでも堅牢な改善が得られることが示されています。ソースコードはhttps://github.com/xuyige/CrossMathで公開されています。