4まで数えるのは依然としてVLMにとって面倒だ

arXiv cs.CV / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、より難しいマルチモーダル推論タスクでは強い性能を示すにもかかわらず、視覚言語モデル（VLM）が単純な物体の数え上げに依然として苦戦する理由を調査する。
形の数え上げのケース、パッチ化（patchification）のレイアウト、そして対向的（アドバーサリアル）なプロンプトを変化させることで、最終回答だけを確認するのではなく失敗モードを特定するための制御された評価スイート「COUNTINGTRICKS」を導入する。
注意（attention）分析とコンポーネントのプロービングにより、数え上げに関連する視覚的な証拠が最も強いのはモダリティ・プロジェクション段階だが、その後の言語層では低下していくことが示される。そこではテキストの事前知識（priors）がますます支配的になる。
著者らは、回答生成時に視覚的注意の最低割り当てを強制することを目的とした軽量な介入であるModality Attention Share（MAS）を評価し、それにより数え上げ失敗を減らすことを狙う。
本研究では、再現性のある検証と、VLMの数え上げ挙動に関するさらなる機構（メカニズム）分析を可能にするため、コードとデータセットを公開する計画も含まれている。

要旨: 視覚と言語のモデル（VLM）は、複雑なマルチモーダル推論タスクにおいて目覚ましい性能を達成してきましたが、対象の個数を数えるといった単純なグラウンディング能力ではなお失敗します。既存の評価の多くは主に最終出力のみを調べており、モデルの内部のどこでこれらの失敗が生じているのかについての洞察は限られています。本研究では、行動分析と機構分析の両面から、VLMの計数行動に関する実証的研究を提示します。異なるパッチ化（patchification）レイアウトおよび敵対的なプロンプト条件の下で脆弱性を露出させることを目的とした、単純な形状ベースの計数ケースからなる制御された評価スイート COUNTINGTRICKS を導入します。注意（attention）分析とコンポーネント単位のプロービングを用いて、数に関係する視覚的証拠がモダリティ射影（modality projection）の段階で最も強い一方で、その後の言語層では大幅に低下し、モデルがテキストの事前分布（text priors）に対してより影響を受けやすくなることを示します。この発見に動機づけられ、本研究では、回答生成中に最低限の視覚注意の予算を確保することを促す軽量な介入である Modality Attention Share（MAS）をさらに評価します。結果は、VLMにおける計数の失敗が、視覚認識の限界だけでなく、言語段階の推論において視覚的証拠が十分に使われないことにも起因することを示唆しています。コードとデータセットは https://github.com/leduy99/-CVPRW26-Modality-Attention-Share で公開されます。

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

4まで数えるのは依然としてVLMにとって面倒だ

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵