GroundCount: 物体検出による視覚言語モデルのグラウンディングを用いたカウント幻覚の抑制
arXiv cs.CV / 2026/3/12
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- GroundCountは、オブジェクト検出器からの明示的な空間的グラウンディングを用いて、視覚言語モデルのカウント幻覚を緩和します。
- 本手法は、最も性能の高いモデル(Ovis2.5-2B)で81.3%のカウント精度を達成し、6.6ポイントの改善をもたらすとともに、幻覚駆動の推論ループを排除することで強力なモデルの推論時間を約22%短縮します。
- アブレーション結果は、位置エンコーディングが強力なモデルには有益だが、弱いモデルには有害となることを示し、信頼度スコアの削除はほとんどのアーキテクチャで性能を向上させます。
- フィーチャーレベルの融合と比較して、構造化プロンプトによる明示的な象徴グラウンディングは、評価対象のほとんどのVLMアーキテクチャで優れた性能を示しますが、1つのモデルは反復的リフレクション機構との非互換性により性能が低下します。
本文: arXiv:2603.10978v1 発表タイプ: 新規
要旨:視覚言語モデル(VLM)は、数えるタスクにおいて持続的な幻覚を示し、感情分析を除く他の視覚推論タスクと比べて精度が大幅に低い。この現象は、最先端の推論機能を備えたVLMにも依然として見られる。対照的に、YOLOなどのCNNベースのオブジェクト検出モデル(ODM)は、空間的局所化とインスタンスカウントにおいて、最小限の計算オーバーヘッドで卓越している。我々はGroundCountを提案する。これはODMsからの明示的な空間グラウンディングをVLMに補強することで、カウント幻覚を抑制するフレームワークである。最良の場合、プロンプトベースの拡張戦略は、最も性能の高いモデル(Ovis2.5-2B)で81.3%のカウント精度を達成し、6.6ポイントの改善をもたらすとともに、幻覚駆動の推論ループを排除することで推論時間を22%短縮する。私たちは、位置エンコードが重要な要素であり、強力なモデルには有益だが弱いモデルには有害であることを示す包括的なアブレーション研究を実施した。対照的に、信頼度スコアはほとんどのアーキテクチャにノイズを導入し、削除することで評価した5つのモデルのうち4つで性能が向上する。さらに、特徴レベルの融合アーキテクチャを評価し、構造化プロンプトによる明示的な象徴グラウンディングは、洗練されたクロスアテンション機構にもかかわらず、暗黙的な特徴融合を上回ることを見出した。我々のアプローチは、評価した5つのVLMアーキテクチャのうち4つで一貫した改善をもたらし(6.2〜7.5ポイント)、1つのアーキテクチャは、反復的なリフレクション機構と構造化プロンプトとの間の互換性の欠如により性能が低下した。これらの結果は、カウントの失敗がアーキテクチャ特有の欠陥ではなく、基本的な空間-意味統合の制限に起因することを示唆しており、拡張戦略におけるアーキテクチャの互換性の重要性を強調している。




