広告

フロンティアLLMにおけるイメージ推論の限界

arXiv cs.CV / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、フロンティアLLMに外部の「イメージリー・モジュール(Imagery Module)」を追加することで、3Dモデルのレンダリングや操作を通じたメンタル・ローテーションのような空間推論タスクの性能が向上するかを検証する。
  • 推論用MLLMとイメージリーのレンダリング/回転ツールから成るデュアルモジュール構成では、期待に反して結果が悪く、正解率は最大62.5%にとどまった。
  • 全体的な3D状態の維持や操作の一部をイメージリー・ツールに外注しても、結合システムは頑健な空間推論を達成できない。
  • これらの知見は、現行のフロンティアLLMが、深度/運動/動的予測への低レベルな感度や、画像に対して熟考的で動的に焦点を当てた推論を行う能力など、コアとなる視覚・空間のプリミティブを欠いていることを示唆している。

Abstract

大規模言語モデル(LLM)は目覚ましい推論能力を示しているものの、メンタルローテーションのように、心的シミュレーションを必要とする空間課題が苦手です。本論文では、LLMに外部の「Imagery Module(イメージリモジュール)」――3Dモデルを描画し回転できるツール――を備えることで、このギャップを埋められるかどうか、すなわち「認知補綴(cognitive prosthetic)」として機能し得るかを調査します。我々は、推論モジュール(MLLM)と3Dモデル回転タスクにおけるイメージリモジュールが相互作用する、デュアルモジュールのアーキテクチャを用いた実験を行いました。結果は予想よりも低く、精度は最大でも62.5%にとどまりました。さらなる調査から、全体的な3D状態の維持と操作の負担を外部に委ねたとしても、システムはなお失敗することが示唆されます。これは、現在の最先端モデルが、イメージとインターフェースするために必要な基礎的な視覚・空間プリミティブを欠いていることを明らかにします。具体的には、モデルには次が欠けています:(1)深度(a)、運動(b)、および短い地平の動的予測(c)のような空間シグナルを抽出するための、低レベルな感度、ならびに(2)画像に対して熟考的に推論する能力であり、視覚的な焦点を動的に切り替えつつ、イメージと記号的・連想的情報とのバランスを取ることができません。

広告