LAST:マルチモーダル大規模言語モデルの空間推論を強化するためのヒントとしてツールを活用する
arXiv cs.CV / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダルLLMが幻覚や不正確さによって複雑な幾何学的レイアウトを誤って扱うことが多いと主張し、構造化された空間的事前知識を与えるために専門の視覚ツールを用いることを提案する。
- 幅広い・パラメータを多く含む異種ツール呼び出しを、原子的な指示へとラップし、再利用可能な「空間スキル」を構成する、ツール拡張型の空間推論フレームワークLASTを導入する。
- LASTは拡張可能なインタラクティブ・サンドボックス(LAST-Box)を用い、低レベルのツール出力(例:セグメンテーションマスク、深度マップ)を、注釈付き画像やテキストによる説明といった、LLMが消費可能なマルチモーダル・ヒントへ変換する。
- ツール出力の解釈を学習し、その後にツールを適応的に呼び出せるようになるための、3段階の段階的トレーニング戦略を提案する。
- 4つのデータセットにまたがる実験では、LAST-7Bがバックボーンに対して約20%の向上を示し、複雑な空間推論タスクにおいて強力な既存のプロプライエタリなクローズドソースLLMと競争力のある性能を発揮する。




