LAST：マルチモーダル大規模言語モデルの空間推論を強化するためのヒントとしてツールを活用する

arXiv cs.CV / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダルLLMが幻覚や不正確さによって複雑な幾何学的レイアウトを誤って扱うことが多いと主張し、構造化された空間的事前知識を与えるために専門の視覚ツールを用いることを提案する。
幅広い・パラメータを多く含む異種ツール呼び出しを、原子的な指示へとラップし、再利用可能な「空間スキル」を構成する、ツール拡張型の空間推論フレームワークLASTを導入する。
LASTは拡張可能なインタラクティブ・サンドボックス（LAST-Box）を用い、低レベルのツール出力（例：セグメンテーションマスク、深度マップ）を、注釈付き画像やテキストによる説明といった、LLMが消費可能なマルチモーダル・ヒントへ変換する。
ツール出力の解釈を学習し、その後にツールを適応的に呼び出せるようになるための、3段階の段階的トレーニング戦略を提案する。
4つのデータセットにまたがる実験では、LAST-7Bがバックボーンに対して約20%の向上を示し、複雑な空間推論タスクにおいて強力な既存のプロプライエタリなクローズドソースLLMと競争力のある性能を発揮する。

Abstract

空間推論は、知的システムが物理世界を認識し相互作用するための中核となる能力です。しかし、多モーダル大規模言語モデル（MLLMs）は、複雑な幾何学的レイアウトを解釈する際に、しばしば幻覚や不正確さに悩まされます。データ駆動型のスケーリングでは、構造化された幾何学的な事前知識や空間制約を内部化することが難しいため、成熟した専用の視覚モデルを統合することは、説得力のある代替案となります。期待がある一方で、このパラダイムを空間推論に適用することは、2つの主要な課題によって妨げられています。すなわち、多様でパラメータ量の多いツールを呼び出すことの難しさ、そして、それらの多様な低レベル出力（例：セグメンテーションマスク、深度マップ）を理解し、高レベル推論で効果的に活用することの難しさです。これらの課題に対処するため、我々はツール拡張型の空間推論のための統一フレームワーク LAST を提案します。LAST は、LAST-Box と呼ばれる拡張可能なインタラクティブ・サンドボックスを備えており、異種のツール呼び出しを原子的な指示と再利用可能な空間スキルへと抽象化し、LLM が直接消費できるマルチモーダルなヒント（例：注釈付き画像やテキスト記述）を返します。さらに、ツール出力の理解から熟達し適応的なツール呼び出しまでをモデルに導く、3段階の漸進的な学習戦略を設計します。4つのデータセットでの実験により、LAST-7B はバックボーンに対して約 20 30 の性能向上を達成し、強力な専用のクローズドソース LLM を上回ることが示され、複雑な空間タスクにおける推論を大幅に強化します。