フォービエイテッド・リーズニング:状態保持型のアクションベース視覚フォーカシングを用いた視覚言語モデル

arXiv cs.CV / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、視覚言語モデルが抱える重要なボトルネックである「高解像度入力が視覚トークン数を増やし、計算負荷が大きくなる問題」に取り組んでいます。
  • 「Foveated Reasoner」は、低解像度から始めて必要に応じて高解像度の根拠を選択的に取り出すことで、フォービエイション(中心窩的注視)と推論を単一のデコーディング経路の中で統合する自 autoregressive(自己回帰)フレームワークです。
  • モデルはいつフォービエイとするかを判断し、選択した領域から高精細な情報を取得して、それを同じ生成プロセスの途中に組み込む仕組みです。
  • 学習は2段階で行い、まずフォービエイション挙動を立ち上げるためのコールドスタートの教師あり学習を行い、その後強化学習で領域選択とタスク精度を同時に改善します(「全部見てしまう」だけの安易な方策を抑制します)。
  • 複数の視覚言語ベンチマークで、厳しい視覚トークン予算下でも精度が向上し、学習されたフォービエイション方策が有効であることが示されています。

要旨: 視覚言語モデルは高解像度画像の恩恵を受ける一方で、視覚トークン数の増加は高い計算オーバーヘッドを招きます。人間はこの緊張関係を、焦点化(foveation)によって解決します。すなわち、粗い視界が「どこを見るべきか」を導き、選択的に取得した高い視力(高精細)の証拠が「何を考えるべきか」を洗練させます。私たちは、焦点化と推論を単一のデコーディング経路の中で統一する、自己回帰型の視覚言語フレームワークであるFoveated Reasonerを導入します。低解像度の視界から開始し、必要な場合にのみ焦点化を起動し、選択された領域から高解像度の証拠を取得して、それを同じデコーディング経路へと注入します。この手法を、二段階のパイプラインで学習します。まず、焦点化行動をブートストラップするための冷スタート監督(coldstart supervision)を行い、その後、強化学習によって、証拠獲得とタスク精度を同時に改善しつつ、つまらない「すべてを見ればよい(see-everything)」解に対する誘因を抑制します。実験の結果、この手法は効果的な焦点化方策を学習し、複数の視覚言語ベンチマークにおいて、厳しい視覚トークン予算の下でもより高い精度を達成することが示されました。