フロンティアLLMにおけるイメージ推論の限界

arXiv cs.CV / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、フロンティアLLMに外部の「イメージリー・モジュール（Imagery Module）」を追加することで、3Dモデルのレンダリングや操作を通じたメンタル・ローテーションのような空間推論タスクの性能が向上するかを検証する。
推論用MLLMとイメージリーのレンダリング／回転ツールから成るデュアルモジュール構成では、期待に反して結果が悪く、正解率は最大62.5%にとどまった。
全体的な3D状態の維持や操作の一部をイメージリー・ツールに外注しても、結合システムは頑健な空間推論を達成できない。
これらの知見は、現行のフロンティアLLMが、深度／運動／動的予測への低レベルな感度や、画像に対して熟考的で動的に焦点を当てた推論を行う能力など、コアとなる視覚・空間のプリミティブを欠いていることを示唆している。

Abstract

大規模言語モデル（LLM）は目覚ましい推論能力を示しているものの、メンタルローテーションのように、心的シミュレーションを必要とする空間課題が苦手です。本論文では、LLMに外部の「Imagery Module（イメージリモジュール）」――3Dモデルを描画し回転できるツール――を備えることで、このギャップを埋められるかどうか、すなわち「認知補綴（cognitive prosthetic）」として機能し得るかを調査します。我々は、推論モジュール（MLLM）と3Dモデル回転タスクにおけるイメージリモジュールが相互作用する、デュアルモジュールのアーキテクチャを用いた実験を行いました。結果は予想よりも低く、精度は最大でも62.5%にとどまりました。さらなる調査から、全体的な3D状態の維持と操作の負担を外部に委ねたとしても、システムはなお失敗することが示唆されます。これは、現在の最先端モデルが、イメージとインターフェースするために必要な基礎的な視覚・空間プリミティブを欠いていることを明らかにします。具体的には、モデルには次が欠けています：（1）深度（a）、運動（b）、および短い地平の動的予測（c）のような空間シグナルを抽出するための、低レベルな感度、ならびに（2）画像に対して熟考的に推論する能力であり、視覚的な焦点を動的に切り替えつつ、イメージと記号的・連想的情報とのバランスを取ることができません。