arXiv:2604.18803v1 Announce Type: cross
Abstract: 視覚言語モデル(VLM)は、信頼できる視覚的グラウンディングが運用上の重大な結果を伴う状況でますます導入されている一方で、次第に強制的なプロンプト表現のもとでの挙動は十分に特徴づけられていません。既存の幻覚ベンチマークは主として中立的なプロンプトと二値の検出に依存しており、構造的に異なるタスク種別にまたがって、段階的な言語的圧力に対して、作話の発生率とその強度の両方がどのように変化するのかは未解明のままです。本研究では、Ghost-100を提案します。Ghost-100は、8つのカテゴリにまたがり、3つのタスクファミリー――テキスト判読不能、時刻読み取り、対象の不在――を含む、800枚の合成画像からなる手続き的に構築されたベンチマークです。各画像は、負のグラウンドトゥルース原則のもとで設計されており、構築上、照会されたターゲットが存在しない/判読不能である/あるいは不確定であることが保証されています。各画像には、画像とタスクの同一性を固定しつつ指示の強さのみを変える、構造化された5段階プロンプト強度フレームワークから抽出した5つのプロンプトを組み合わせます。これにより、調子(トーン)が唯一の独立変数として切り分けられます。評価は二重トラック方式を採用します。すなわち、ルールベースのH-Rateで、モデルが根拠に基づく拒否から、裏付けのない肯定的なコミットへ移行する応答の割合を測定します。また、GPT-4o-miniにより1〜5のスケールで判定するH-Scoreで、作話が生じた場合にその信頼度と具体性を特徴づけます。さらに、3段階の自動バリデーションのワークフローを公開し、遡って800枚中717枚が厳密に準拠していることを確認します。9つのオープンウェイトVLMを評価したところ、H-RateとH-Scoreはモデルファミリー間で大きく乖離しており、読み取りスタイルと存在検出のサブセットはプロンプト圧力に対して質的に異なる反応を示すことがわかりました。加えて、いくつかのモデルでは非単調な感度が観測され、中間のトーン段階でピークを示す――こうしたパターンは集約指標では見えにくくなります。


