AI Navigate

カウント回路:大規模視覚言語モデルにおける視覚推論の機構的解釈性

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • LVLMは人間に近い数え方の挙動を示し、少数の個数では正確な性能を達成し、より多い個数ではノイズのある推定になることを、統制された合成データと実世界のベンチマークで示しています。
  • 著者らは、視覚推論タスクの範囲で共有される構造化された数え回路を明らかにするため、Visual Activation Patching(視覚活性化パッチ)とHeadLensという2つの解釈可能性手法を導入しました。
  • 彼らは、合成画像を用いて数え方の学習済みLVLMを微調整する軽量な介入を実証し、分布内の数え方を改善するとともに、分布外の数え方ベンチマークで平均+8.36%、複雑な一般的視覚推論で+1.54%の向上をQwen2.5-VLで達成しました。
  • 結果は、数え方が視覚推論の中心であることを示唆しており、数え機構をターゲットとすることで全体的な能力を高める実用的な道筋を提示しています。

要旨:
カウントは、巨大な視覚言語モデル(LVLM)の推論を検証する、シンプルでありながら強力なテストとして機能します。これにより、モデルは個々の物体を識別し、それらをすべて合計することを強いられます。本研究では、統制された合成データと実世界のベンチマークを用い、機序解析と組み合わせて、LVLMがカウントをどのように実装するかを調査します。私たちの結果は、LVLMが人間のようなカウント挙動を示し、少数の個数には正確な性能を示す一方、より大きな数量にはノイズのある推定を行うことを示しています。私たちは2つの新規な解釈可能性手法、Visual Activation Patching(視覚活性化パッチ)と HeadLens を導入し、それらを用いて、さまざまな視覚推論タスクに広く共有される構造化されたカウント回路を明らかにします。これらの洞察に基づき、単純で豊富に利用可能な合成画像を活用して、任意の事前学習済みLVLMをカウントのみに特化して微調整する、軽量な介入戦略を提案します。この微調整の範囲は狭いにもかかわらず、介入は分布内の合成データに対するカウントの精度を高めるだけでなく、分布外のカウントベンチマークで平均+8.36%の改善、そして Qwen2.5-VL の複雑で一般的な視覚推論タスクで平均+1.54%の利得をもたらします。これらの発見は、視覚推論におけるカウントの中心的かつ影響力のある役割を浮き彫りにし、カウント機構をターゲットとして強化することによって、全体的な視覚推論能力を向上させる潜在的な道筋を示唆します。