視覚言語モデルにおける口調(トーン)誘発の幻覚を評価するための「LLM-as-Judge」フレームワーク

arXiv cs.AI / 2026/4/22

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、Ghost-100という新しいベンチマーク(800枚の合成画像、8カテゴリ、3つの視覚言語タスクファミリー)を提案し、どのようにプロンプトの口調が強まると幻覚が変化するかを調べます。
  • 画像とタスクを固定したまま、指示の強さのみを変える5段階のプロンプト強度フレームワークを用いることで、「口調」を主要な独立変数として切り分けています。
  • 評価は二本立てで行われ、根拠に基づく拒否から根拠のない肯定的主張へ切り替わる割合を測るH-Rate(ルールベース)と、幻覚が起きたときの自信や具体性を1〜5で判定するGPT-4o-miniによるH-Scoreで構成されます。
  • 3段階の自動検証プロセスにより、設計上のネガティブなグラウンドトゥルースに厳密に準拠する画像が800枚中717枚確認されたと報告されています。
  • 9つのオープンウェイトVLMを評価した結果、幻覚の「発生率」と「強度」がモデル群で大きく異なり、タスクの種類(読み取り系と存在検出系)でも口調による反応が質的に異なり、集約指標では見えにくい中間トーンで最大化する非単調な感度も見られます。

arXiv:2604.18803v1 Announce Type: cross


Abstract: 視覚言語モデル(VLM)は、信頼できる視覚的グラウンディングが運用上の重大な結果を伴う状況でますます導入されている一方で、次第に強制的なプロンプト表現のもとでの挙動は十分に特徴づけられていません。既存の幻覚ベンチマークは主として中立的なプロンプトと二値の検出に依存しており、構造的に異なるタスク種別にまたがって、段階的な言語的圧力に対して、作話の発生率とその強度の両方がどのように変化するのかは未解明のままです。本研究では、Ghost-100を提案します。Ghost-100は、8つのカテゴリにまたがり、3つのタスクファミリー――テキスト判読不能時刻読み取り対象の不在――を含む、800枚の合成画像からなる手続き的に構築されたベンチマークです。各画像は、負のグラウンドトゥルース原則のもとで設計されており、構築上、照会されたターゲットが存在しない/判読不能である/あるいは不確定であることが保証されています。各画像には、画像とタスクの同一性を固定しつつ指示の強さのみを変える、構造化された5段階プロンプト強度フレームワークから抽出した5つのプロンプトを組み合わせます。これにより、調子(トーン)が唯一の独立変数として切り分けられます。評価は二重トラック方式を採用します。すなわち、ルールベースのH-Rateで、モデルが根拠に基づく拒否から、裏付けのない肯定的なコミットへ移行する応答の割合を測定します。また、GPT-4o-miniにより1〜5のスケールで判定するH-Scoreで、作話が生じた場合にその信頼度と具体性を特徴づけます。さらに、3段階の自動バリデーションのワークフローを公開し、遡って800枚中717枚が厳密に準拠していることを確認します。9つのオープンウェイトVLMを評価したところ、H-RateとH-Scoreはモデルファミリー間で大きく乖離しており、読み取りスタイルと存在検出のサブセットはプロンプト圧力に対して質的に異なる反応を示すことがわかりました。加えて、いくつかのモデルでは非単調な感度が観測され、中間のトーン段階でピークを示す――こうしたパターンは集約指標では見えにくくなります。