ピクセルを見せるな、手がかりを見せろ：知覚プログラムによる言語モデルの視覚ツール推論の解放

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、多くのマルチモーダル言語モデルが、密なピクセルレベル（生の）ツール表現を与えてしまうことで、LLMが言語ネイティブな推論を行う方法と整合しにくくなり、視覚ツール出力を十分に活用できていないと主張する。
「知覚プログラム（P$^2$）」を提案する。これは学習不要で、モデル非依存な手法であり、ツール出力を書き換えて、コンパクトで構造化され、手がかりに焦点を当てた要約に変換することで、LLMがより直接に解析し推論できるようにする。
BLINKにおける知覚中心の6つのタスクで実験した結果、P$^2$はベースモデルと、生のツールによる拡張ベースラインの両方に対して大きな改善をもたらす。
GPT-5 Miniを用いると、P$^2$は多視点推論の精度を41.35%から86.47%へ、相対奥行きを52.42%から81.45%へと引き上げる。さらにタスク全体で約22%の平均改善が得られる。
この手法は、InternVL3.5-4BやQwen3VL-4Bのような小型のMLLMに対しても強力な絶対的改善（15〜40%）を提供し、学習やモデル変更なしで、従来のツール利用アプローチよりも優れた性能を示す。