視覚言語モデルにおけるエッジ信頼性ギャップ：視覚的な破損下で圧縮VLMの失敗モードを定量化する

arXiv cs.CV / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、圧縮／量子化された視覚言語モデルが、視覚的な破損に直面したときに、精度が低いだけでなく、大規模なFP16 VLMとは質的に異なる失敗の仕方をするのかを調べる。
4ビット量子化の7Bモデル（Qwen2.5-VL-7B、NF4）と、5億MのFP16モデル（SmolVLM2-500M）を、VQAv2およびCOCOからの4,000サンプルに対して比較し、エラーの分類法を3部構成（Object Blindness、Semantic Drift、Prior Bias）で用いる。
Semantic Driftは、両モデルにおいてVQAv2では支配的な失敗モードであり、またCOCOでは特にQwenで支配的である。一方、Prior BiasはVQAv2で見られるが、COCOでは双方のモデルで観測されない。
コンパクトなモデルは、合成的な否定（compositional negation）プローブにおいて「否定の崩壊（negation collapse）」が有意に大きく、主にCOCOによって駆動される（統計的に有意な12.5ppのギャップ）。さらに、重要なテンプレート（false_yn）では、SmolVLM2がCOCOにおいて「Yes」への極端なバイアスを示すことが明らかになる。
著者らは、Expected Calibration Error（ECE）による信頼度（confidence）の校正を評価し、ぼかし頑健性の実験も含める。また、エッジ展開の前に体系的な安全性監査を行うことを目的とした、完全に再現可能なパイプラインを公開する。

要旨: エッジ環境への展開を目的とした大規模視覚言語モデル（VLM）の急速な圧縮は、十分に検討されていない疑問を提起する。すなわち、コンパクトなモデルは「単により頻繁に」失敗するのではなく、「異なる仕方で」失敗するのだろうか。本研究では、70億パラメータの量子化VLM（Qwen2.5-VL-7B、4-bit NF4）と、5億パラメータのFP16モデル（SmolVLM2-500M）を、VQAv2およびCOCOキャプションからの4,000サンプルにわたって比較する。診断のための枠組みとして、3カテゴリの誤り分類（Object Blindness、Semantic Drift、Prior Bias）を適用する。テキストのみのGPT-4o判定器により、VQAv2およびCOCOにおいてQwenではSemantic Drift（B）が主要な失敗モードであることが明らかになる。一方でCOCOにおけるSmolVLM2では、Object Blindness／Semantic Driftの混合プロファイルが見られる。Prior Bias（C）はVQAv2では存在するが、両モデルともCOCOでは存在しない。信頼度の校正は、幾何平均トークン確率を用いたExpected Calibration Error（ECE）によって測定し、構造化否定プローブを4つのテンプレートにわたって用いて合成的推論を調べ、ブラー頑健性の実験で評価を完了する。このモデル対において、コンパクトモデルは質的に異なる失敗シグネチャを示す。すなわち、否定崩壊が12.5pp大きい（-33.2pp vs. -20.8pp、Wald 95%信頼区間 [8.2, 16.8]pp、p < 10^-8）。この差はほぼ完全にCOCOによって駆動されており、VQAv2のギャップは統計的に有意ではない（4.5pp、p=0.19）。最も識別力の高いテンプレートはfalse_ynである。SMOLVLM2-500Mは、COCOの試行の100%で「Yes」と応答し（描かれている物体が存在しないと誤って主張）、Q WEN 2.5-VL-7Bでは14%である。非対称なデータセット依存のミスキャリブレーションと、2つの制御されたアブレーションを伴うブラー実験によって分析は完結する。完全に再現可能なパイプラインは、エッジ展開の前に圧縮VLMの体系的な安全監査を行うために公開される。