大規模視覚言語モデルにおけるディフレクション(話題逸らし)と幻覚のベンチマーク評価

arXiv cs.AI / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現在の視覚言語モデルのベンチマークが、特に視覚的根拠とテキスト根拠が食い違う場合や、取得(リトリーブ)知識が不完全な場合など、検索ベースのQAにおける重要な挙動を見落としていると主張する。
  • LVLMが改善し、検索なしでより多くの質問に答えられるようになるにつれて、ベンチマークの難度が経時的に劣化しないようにするための、動的なデータキュレーション(選別)パイプラインを提案する。
  • VLM-DeflectionBenchを導入し、2,775件のサンプルを多様なマルチモーダル検索設定にわたって用意することで、不十分または誤解を招く根拠に直面したときに、モデルがディフレクション(反証や逸らしの生成)をどのように行うかを検証する。
  • 著者らは、4つのシナリオから成るきめ細かな評価プロトコルを定義し、パラメトリックな記憶(暗記)と、検索の頑健性を切り分ける。
  • 最先端のLVLM 20モデルに対する実験では、根拠がノイズまみれ/誤導的なときに、モデルはしばしばディフレクションできないことが示されており、「彼らが分からないときにどう振る舞うか」を測定する必要性が強調されている。

Abstract

大規模視覚言語モデル(LVLMs)は、知識集約的なマルチモーダル質問に答えるために、ますます検索(リトリーバル)に依存するようになっています。既存のベンチマークでは、視覚的証拠とテキスト証拠の間に生じる矛盾が見落とされており、また、検索された知識が不完全な場合に生成する「そらし」(例:Sorry, I cannot answer...)の重要性も考慮されていません。さらに、LVLMの学習データセットが拡大することで、モデルが検索なしで多くの質問に答えられるようになり、これらのベンチマークは急速に陳腐化してしまいます。私たちはこのギャップを3つの貢献で埋めます。第一に、検索に本当に依存するサンプルを抽出することで、時間の経過にわたってベンチマークの難しさを維持する動的なデータキュレーションのパイプラインを提案します。第二に、VLM-DeflectionBenchを導入します。これは、多様なマルチモーダル検索設定にまたがる2,775サンプルからなるベンチマークで、矛盾する、または不十分な証拠のもとでのモデルの振る舞いを検証することを目的としています。第三に、4つのシナリオから成るきめ細かな評価プロトコルを定義し、パラメトリックな記憶(学習済みの想起)と検索の頑健性を切り分けます。最先端の20のLVLMに対する実験の結果、モデルはノイズのある、あるいは誤解を招く証拠がある場合には、通常そらし(deflection)に失敗することが示されました。これらの結果は、「モデルが何を知っているか」だけでなく、「知識が不足しているときにどのように振る舞うか」を評価する必要性を強調するとともに、信頼性のあるKB-VQA評価のための、再利用可能で拡張可能なベンチマークとして役立つものです。すべてのリソースは、公開時に一般に利用可能になります。