フロンティアLLMにおけるイメージ推論の限界
arXiv cs.CV / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、フロンティアLLMに外部の「イメージリー・モジュール(Imagery Module)」を追加することで、3Dモデルのレンダリングや操作を通じたメンタル・ローテーションのような空間推論タスクの性能が向上するかを検証する。
- 推論用MLLMとイメージリーのレンダリング/回転ツールから成るデュアルモジュール構成では、期待に反して結果が悪く、正解率は最大62.5%にとどまった。
- 全体的な3D状態の維持や操作の一部をイメージリー・ツールに外注しても、結合システムは頑健な空間推論を達成できない。
- これらの知見は、現行のフロンティアLLMが、深度/運動/動的予測への低レベルな感度や、画像に対して熟考的で動的に焦点を当てた推論を行う能力など、コアとなる視覚・空間のプリミティブを欠いていることを示唆している。




