INFACT: Video-LLMsにおける誘導忠実性と事実性幻覚の診断用ベンチマーク

arXiv cs.CV / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

INFACT は、現実動画と合成動画を網羅する9,800件のQAインスタンスからなる診断ベンチマークを導入し、Video-LLMs の忠実性と事実性を評価します。
Base、Visual Degradation、Evidence Corruption、Temporal Intervention の4つの誘導モードでモデルを評価し、信頼性を抵抗率（RR）と時間感度スコア（TSS）で定量化します。
14の代表的なVideo-LLMsの実験により、Baseモードの高い精度が誘導モードで高い信頼性を必ずしも予測せず、エビデンス改ざんが安定性を低下させ、時間的介入が最大の劣化をもたらすことが示されました。
結果は、オープンソースのベースライン間で顕著な時間的慣性を示し、順序依存の質問に対する事実性のTSSがほぼゼロであることを示しています。
実動画と合成動画、及び誘導的撹乱を用いてモデルをストレステストすることで、名目上の正確さと時間的に敏感な設定での信頼性の間に存在するギャップをINFACTは浮き彫りにします。

要旨: 急速な進展にもかかわらず、Video Large Language Models（Video-LLMs）は、動画の証拠と矛盾する出力（忠実性）や検証可能な世界知識（事実性）に基づく幻覚のため、依然として信頼性に欠けます。既存のベンチマークは事実性幻覚の網羅性が限られており、主にクリーンな設定でのみモデルを評価しています。我々は INFACT を導入します。 INFACT は、9,800 件のQAインスタンスを含む診断的ベンチマークで、忠実性と事実性の細かな分類を、現実の動画と合成動画の両方にまたがって提供します。 INFACT は4つのモード（Base（クリーン）、視覚的劣化、エビデンス改ざん、時間的介入、順序依存の項目用）でモデルを評価します。誘導モードでの信頼性は、抵抗率（RR）と時間感度スコア（TSS）を用いて定量化します。14の代表的なVideo-LLMsを対象とした実験により、Baseモードの高い精度が誘導モードでの信頼性の向上に必ずしも結びつくわけではなく、エビデンス改ざんが安定性を低下させ、時間的介入が最大の劣化をもたらすことが示されました。特に、多くのオープンソースのベースラインは事実性に対してほぼゼロのTSSを示しており、順序依存の質問における顕著な時間的慣性を示しています。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

INFACT: Video-LLMsにおける誘導忠実性と事実性幻覚の診断用ベンチマーク

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer