逐次的な実験設計によるアクティブ推論型の視覚言語モデル

arXiv cs.CV / 2026/5/5

📰 ニュースModels & Research

共有:

要点

本論文は、視覚言語モデルが「知覚バンド幅のボトルネック」に直面しており、広い視野が細かな情報を犠牲にして複雑な推論に必要な解像度が不足する点を指摘しています。
この制約を克服するために、逐次ベイズ最適実験設計（S-BOED）を用いて、空間的なカバレッジと解像度のバランスをとる逐次的な意思決定問題として定式化しています。
連続的なギガピクセル画像空間では厳密なベイズ推論が困難なため、著者らは実用化に向けた扱いやすい近似を導出しています。
複数の視覚ツールを備えたエージェントを想定し、S-BOED目的を具体化する「学習不要」の推論戦略を提案しており、貪欲サンプリングから先読み計画まで任意の最適化手法を扱えるテンプレートになっています。
ギガピクセル級ベンチマークでの実験では、従来の最先端ベースラインを上回る性能向上が確認され、人手で注釈したオラクルに近づくギャップの縮小が示されています。