要旨: 大規模ビジョン・言語モデル(VLM)は、視覚的な質問応答のような画像からテキスト(I2T)タスクや、テキストから画像(T2I)生成タスクにおいて、他のモデルの出力を評価するためにますます用いられている。こうした依存が拡大しているにもかかわらず、評価者VLMの信頼性は十分に調査されていない。本研究では、I2TとT2Iの両タスクにわたって、評価者VLMの信頼性を体系的に評価する。物体の幻覚(ハルシネーション)、空間的推論、事実に基づく根拠付け、視覚的忠実性といった主要な誤りの次元に沿って出力品質を劣化させる、狙いを定めた摂動を導入する。これらの摂動によって、評価者VLMが、品質を劣化させるこれらの誤りを評価の中で確実に説明できるかどうかを検証する。摂動次元40にまたがる4000件超の摂動済みインスタンスからなる包括的なベンチマークを用い、単一回答スコアリング、ペアワイズ比較、参照ガイド付きのパラダイムにより、4つの著名なVLMを評価する。結果は、現行のVLM評価器には大きな盲点があることを示している。すなわち、しばしば摂動された出力を検出できず、場合によっては50%を超えることがあり、特に微細な合成的(コンポジショナル)および空間的な誤りに関して苦手である。また、入力画像と矛盾する幻覚された内容に対して鈍感であることが多い。ペアワイズ比較の方がより信頼性が高いものの、失敗率は依然として残る。これらの結果は、現行の評価者VLMが信頼できない性質を持つことを明らかにし、ベンチマークや開発上の意思決定における導入に対して注意を促す。コードとデータは公開済みである。
見えていても信じられない:評価用ビジョン・ランゲージ・モデルの死角をあぶり出す
arXiv cs.CV / 2026/4/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、画像からテキスト(I2T)およびテキストから画像(T2I)の両方で、他モデルの出力を評価するために使われるビジョン・ランゲージ・モデル(VLM)評価器が、信頼に足る形では機能しないことを示しています。
- 論文では、物体の幻覚、空間・構成的な誤り、事実の根拠の欠如、視覚的忠実性の劣化といった主要な失敗モードを狙った摂動(perturbations)を導入し、摂動次元40種類にわたる4,000件超の大規模ベンチマークで検証しています。
- 4つの代表的VLMに対し、単一回答スコアリング、ペア比較、参照ガイド付きといった複数の評価設定で分析した結果、劣化した出力を見抜けないケースが多く、死角は50%超に達する場合もあることが分かりました。
- ペア比較は他の枠組みより信頼性が高いものの、細かな空間・構成的誤りや、入力画像と矛盾する幻覚コンテンツへの鈍さといった検出ギャップは依然として残っています。
- 著者らはコードとデータを公開し、評価用VLMをベンチマークや開発上の意思決定に用いる際は、信頼性の限界を踏まえて慎重に扱うべきだと訴えています。



