要旨: 視覚と言語のモデル(VLM)は、複雑なマルチモーダル推論タスクにおいて目覚ましい性能を達成してきましたが、対象の個数を数えるといった単純なグラウンディング能力ではなお失敗します。既存の評価の多くは主に最終出力のみを調べており、モデルの内部のどこでこれらの失敗が生じているのかについての洞察は限られています。本研究では、行動分析と機構分析の両面から、VLMの計数行動に関する実証的研究を提示します。異なるパッチ化(patchification)レイアウトおよび敵対的なプロンプト条件の下で脆弱性を露出させることを目的とした、単純な形状ベースの計数ケースからなる制御された評価スイート COUNTINGTRICKS を導入します。注意(attention)分析とコンポーネント単位のプロービングを用いて、数に関係する視覚的証拠がモダリティ射影(modality projection)の段階で最も強い一方で、その後の言語層では大幅に低下し、モデルがテキストの事前分布(text priors)に対してより影響を受けやすくなることを示します。この発見に動機づけられ、本研究では、回答生成中に最低限の視覚注意の予算を確保することを促す軽量な介入である Modality Attention Share(MAS)をさらに評価します。結果は、VLMにおける計数の失敗が、視覚認識の限界だけでなく、言語段階の推論において視覚的証拠が十分に使われないことにも起因することを示唆しています。コードとデータセットは https://github.com/leduy99/-CVPRW26-Modality-Attention-Share で公開されます。
4まで数えるのは依然としてVLMにとって面倒だ
arXiv cs.CV / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、より難しいマルチモーダル推論タスクでは強い性能を示すにもかかわらず、視覚言語モデル(VLM)が単純な物体の数え上げに依然として苦戦する理由を調査する。
- 形の数え上げのケース、パッチ化(patchification)のレイアウト、そして対向的(アドバーサリアル)なプロンプトを変化させることで、最終回答だけを確認するのではなく失敗モードを特定するための制御された評価スイート「COUNTINGTRICKS」を導入する。
- 注意(attention)分析とコンポーネントのプロービングにより、数え上げに関連する視覚的な証拠が最も強いのはモダリティ・プロジェクション段階だが、その後の言語層では低下していくことが示される。そこではテキストの事前知識(priors)がますます支配的になる。
- 著者らは、回答生成時に視覚的注意の最低割り当てを強制することを目的とした軽量な介入であるModality Attention Share(MAS)を評価し、それにより数え上げ失敗を減らすことを狙う。
- 本研究では、再現性のある検証と、VLMの数え上げ挙動に関するさらなる機構(メカニズム)分析を可能にするため、コードとデータセットを公開する計画も含まれている。




