INFACT: Video-LLMsにおける誘導忠実性と事実性幻覚の診断用ベンチマーク
arXiv cs.CV / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- INFACT は、現実動画と合成動画を網羅する9,800件のQAインスタンスからなる診断ベンチマークを導入し、Video-LLMs の忠実性と事実性を評価します。
- Base、Visual Degradation、Evidence Corruption、Temporal Intervention の4つの誘導モードでモデルを評価し、信頼性を抵抗率(RR)と時間感度スコア(TSS)で定量化します。
- 14の代表的なVideo-LLMsの実験により、Baseモードの高い精度が誘導モードで高い信頼性を必ずしも予測せず、エビデンス改ざんが安定性を低下させ、時間的介入が最大の劣化をもたらすことが示されました。
- 結果は、オープンソースのベースライン間で顕著な時間的慣性を示し、順序依存の質問に対する事実性のTSSがほぼゼロであることを示しています。
- 実動画と合成動画、及び誘導的撹乱を用いてモデルをストレステストすることで、名目上の正確さと時間的に敏感な設定での信頼性の間に存在するギャップをINFACTは浮き彫りにします。
要旨: 急速な進展にもかかわらず、Video Large Language Models(Video-LLMs)は、動画の証拠と矛盾する出力(忠実性)や検証可能な世界知識(事実性)に基づく幻覚のため、依然として信頼性に欠けます。既存のベンチマークは事実性幻覚の網羅性が限られており、主にクリーンな設定でのみモデルを評価しています。我々は INFACT を導入します。 INFACT は、9,800 件のQAインスタンスを含む診断的ベンチマークで、忠実性と事実性の細かな分類を、現実の動画と合成動画の両方にまたがって提供します。 INFACT は4つのモード(Base(クリーン)、視覚的劣化、エビデンス改ざん、時間的介入、順序依存の項目用)でモデルを評価します。誘導モードでの信頼性は、抵抗率(RR)と時間感度スコア(TSS)を用いて定量化します。14の代表的なVideo-LLMsを対象とした実験により、Baseモードの高い精度が誘導モードでの信頼性の向上に必ずしも結びつくわけではなく、エビデンス改ざんが安定性を低下させ、時間的介入が最大の劣化をもたらすことが示されました。特に、多くのオープンソースのベースラインは事実性に対してほぼゼロのTSSを示しており、順序依存の質問における顕著な時間的慣性を示しています。