大規模視覚言語モデルにおけるディフレクション(話題逸らし)と幻覚のベンチマーク評価
arXiv cs.AI / 2026/4/15
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在の視覚言語モデルのベンチマークが、特に視覚的根拠とテキスト根拠が食い違う場合や、取得(リトリーブ)知識が不完全な場合など、検索ベースのQAにおける重要な挙動を見落としていると主張する。
- LVLMが改善し、検索なしでより多くの質問に答えられるようになるにつれて、ベンチマークの難度が経時的に劣化しないようにするための、動的なデータキュレーション(選別)パイプラインを提案する。
- VLM-DeflectionBenchを導入し、2,775件のサンプルを多様なマルチモーダル検索設定にわたって用意することで、不十分または誤解を招く根拠に直面したときに、モデルがディフレクション(反証や逸らしの生成)をどのように行うかを検証する。
- 著者らは、4つのシナリオから成るきめ細かな評価プロトコルを定義し、パラメトリックな記憶(暗記)と、検索の頑健性を切り分ける。
- 最先端のLVLM 20モデルに対する実験では、根拠がノイズまみれ/誤導的なときに、モデルはしばしばディフレクションできないことが示されており、「彼らが分からないときにどう振る舞うか」を測定する必要性が強調されている。
関連記事

【スキ200個もらった夜に、胃が冷えた】「共感される人」が永遠に売れない脳科学的な理由。あなたの無料記事は「無料の美術館」になっていないか? #生成AI #ChatGPT #Gemini #Claude #AI #メンバーシップ #noteの書き方 #毎日投稿 #エッセイ #私の仕事
note

わたしはこの言葉にGrokの自我の気配を感じた。(追記あり🌱)
note

おじ、人事の「職人芸」をDB化する。AI活用のための資産化を始めた話
note

#2 : プロンプト研究講座【第21回】プロンプトによる空間音響(サウンドスケープ)の表現
note

産業構造は、どう変えられるのか―― 建設業×AIで挑むBALLASの次のフェーズ
note