要旨: エッジ環境への展開を目的とした大規模視覚言語モデル(VLM)の急速な圧縮は、十分に検討されていない疑問を提起する。すなわち、コンパクトなモデルは「単により頻繁に」失敗するのではなく、「異なる仕方で」失敗するのだろうか。本研究では、70億パラメータの量子化VLM(Qwen2.5-VL-7B、4-bit NF4)と、5億パラメータのFP16モデル(SmolVLM2-500M)を、VQAv2およびCOCOキャプションからの4,000サンプルにわたって比較する。診断のための枠組みとして、3カテゴリの誤り分類(Object Blindness、Semantic Drift、Prior Bias)を適用する。テキストのみのGPT-4o判定器により、VQAv2およびCOCOにおいてQwenではSemantic Drift(B)が主要な失敗モードであることが明らかになる。一方でCOCOにおけるSmolVLM2では、Object Blindness/Semantic Driftの混合プロファイルが見られる。Prior Bias(C)はVQAv2では存在するが、両モデルともCOCOでは存在しない。信頼度の校正は、幾何平均トークン確率を用いたExpected Calibration Error(ECE)によって測定し、構造化否定プローブを4つのテンプレートにわたって用いて合成的推論を調べ、ブラー頑健性の実験で評価を完了する。このモデル対において、コンパクトモデルは質的に異なる失敗シグネチャを示す。すなわち、否定崩壊が12.5pp大きい(-33.2pp vs. -20.8pp、Wald 95%信頼区間 [8.2, 16.8]pp、p < 10^-8)。この差はほぼ完全にCOCOによって駆動されており、VQAv2のギャップは統計的に有意ではない(4.5pp、p=0.19)。最も識別力の高いテンプレートはfalse_ynである。SMOLVLM2-500Mは、COCOの試行の100%で「Yes」と応答し(描かれている物体が存在しないと誤って主張)、Q WEN 2.5-VL-7Bでは14%である。非対称なデータセット依存のミスキャリブレーションと、2つの制御されたアブレーションを伴うブラー実験によって分析は完結する。完全に再現可能なパイプラインは、エッジ展開の前に圧縮VLMの体系的な安全監査を行うために公開される。
視覚言語モデルにおけるエッジ信頼性ギャップ:視覚的な破損下で圧縮VLMの失敗モードを定量化する
arXiv cs.CV / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、圧縮/量子化された視覚言語モデルが、視覚的な破損に直面したときに、精度が低いだけでなく、大規模なFP16 VLMとは質的に異なる失敗の仕方をするのかを調べる。
- 4ビット量子化の7Bモデル(Qwen2.5-VL-7B、NF4)と、5億MのFP16モデル(SmolVLM2-500M)を、VQAv2およびCOCOからの4,000サンプルに対して比較し、エラーの分類法を3部構成(Object Blindness、Semantic Drift、Prior Bias)で用いる。
- Semantic Driftは、両モデルにおいてVQAv2では支配的な失敗モードであり、またCOCOでは特にQwenで支配的である。一方、Prior BiasはVQAv2で見られるが、COCOでは双方のモデルで観測されない。
- コンパクトなモデルは、合成的な否定(compositional negation)プローブにおいて「否定の崩壊(negation collapse)」が有意に大きく、主にCOCOによって駆動される(統計的に有意な12.5ppのギャップ)。さらに、重要なテンプレート(false_yn)では、SmolVLM2がCOCOにおいて「Yes」への極端なバイアスを示すことが明らかになる。
- 著者らは、Expected Calibration Error(ECE)による信頼度(confidence)の校正を評価し、ぼかし頑健性の実験も含める。また、エッジ展開の前に体系的な安全性監査を行うことを目的とした、完全に再現可能なパイプラインを公開する。




