連鎖的思考(CoT)がマルチモーダルLLMの視覚空間推論能力を低下させる
arXiv cs.CV / 2026/4/20
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究は、連鎖的思考(CoT)プロンプトがマルチモーダル推論モデルの汎用的な視覚空間推論タスクでの性能を損ねることを示しています。
- 17のモデルを13の空間ベンチマークで評価した結果、CoTプロンプトに起因する一貫した性能低下が確認されました。
- No-Image++のアブレーションにより、画像がなくてもテキストの事前知識(優先)から視覚的な詳細を作り出す、深刻なショートカット学習が起きていることが示されました。
- これらの結果は、空間推論に対するテキストのみのCoTアプローチの有効性に疑問を投げかけ、視覚中心の推論パラダイムの必要性を強調しています。


