ピクセルを見せるな、手がかりを見せろ:知覚プログラムによる言語モデルの視覚ツール推論の解放

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、多くのマルチモーダル言語モデルが、密なピクセルレベル(生の)ツール表現を与えてしまうことで、LLMが言語ネイティブな推論を行う方法と整合しにくくなり、視覚ツール出力を十分に活用できていないと主張する。
  • 「知覚プログラム(P$^2$)」を提案する。これは学習不要で、モデル非依存な手法であり、ツール出力を書き換えて、コンパクトで構造化され、手がかりに焦点を当てた要約に変換することで、LLMがより直接に解析し推論できるようにする。
  • BLINKにおける知覚中心の6つのタスクで実験した結果、P$^2$はベースモデルと、生のツールによる拡張ベースラインの両方に対して大きな改善をもたらす。
  • GPT-5 Miniを用いると、P$^2$は多視点推論の精度を41.35%から86.47%へ、相対奥行きを52.42%から81.45%へと引き上げる。さらにタスク全体で約22%の平均改善が得られる。
  • この手法は、InternVL3.5-4BやQwen3VL-4Bのような小型のMLLMに対しても強力な絶対的改善(15〜40%)を提供し、学習やモデル変更なしで、従来のツール利用アプローチよりも優れた性能を示す。