連鎖的思考(CoT)がマルチモーダルLLMの視覚空間推論能力を低下させる

arXiv cs.CV / 2026/4/20

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、連鎖的思考(CoT)プロンプトがマルチモーダル推論モデルの汎用的な視覚空間推論タスクでの性能を損ねることを示しています。
  • 17のモデルを13の空間ベンチマークで評価した結果、CoTプロンプトに起因する一貫した性能低下が確認されました。
  • No-Image++のアブレーションにより、画像がなくてもテキストの事前知識(優先)から視覚的な詳細を作り出す、深刻なショートカット学習が起きていることが示されました。
  • これらの結果は、空間推論に対するテキストのみのCoTアプローチの有効性に疑問を投げかけ、視覚中心の推論パラダイムの必要性を強調しています。

Abstract

Chain-of-Thought(CoT)に基づく推論を活用したマルチモーダル推論モデル(MRMs)は、数学的および論理的な問題解決に革命をもたらしてきました。しかし本研究では、このパラダイムが汎用的な空間知能に対しては苦戦することを示します。私たちは、13の空間ベンチマークにまたがる17のモデルを包括的に評価し、重要なギャップを特定します。すなわち、CoTプロンプトは視覚的な空間推論において一貫して性能を低下させるのです。さらに、新しいNo-Image++のアブレーションにより、MRMおよびCoTでプロンプトされたMLMは深刻なショートカット学習を起こし、画像が存在しない場合でもテキスト上の事前情報から視覚的な詳細を幻覚(hallucinate)として生成することを実証します。これらの結果は、空間タスクに対するテキストのみのCoTの有効性に疑問を投げかけ、視覚を中心に据えた推論パラダイムの必要性を強調するものです。