DualFact+: 手順型ビデオ理解のためのマルチモーダル事実検証フレームワーク

arXiv cs.AI / 2026/4/29

📰 ニュースModels & Research

共有:

要点

この論文では、手順型ビデオのキャプション生成において「概念的事実」と「文脈に根ざした事実」を分けて評価するデュアルレイヤー型のマルチモーダル事実評価フレームワークDualFactを提案している。
DualFactは、暗黙の引数拡張（VIA）とコントラスト的な事実セットを用いて、より完全で役割整合的な事実検証を行う。
検証モードとしてDualFact-T（テキスト根拠に基づく検証）とDualFact-V（ビデオに根ざした視覚的根拠に基づく検証）の2種類を用意している。
YouCook3-FactとCraftBench-Factの実験では、最先端のマルチモーダル言語モデルが「流暢だが事実としては不完全」になりがちで、体系的な省略や役割レベルの不整合が見られることを示している。
DualFactは標準的な指標よりも人間の事実性判断と整合しやすく、特に文脈的事実でその傾向が強いとされる。また、キャプションのみの評価は、ビデオ根拠による検証と比べてハルシネーションを誤って捉えうることを明らかにしている。

Abstract

私たちは、手続き型ビデオキャプション生成のための、二層・マルチモーダルな事実性評価フレームワーク「DualFact」を提案します。DualFactは、事実の正しさを「概念的事実」と「文脈的事実」に分離します。概念的事実は、抽象的な意味役割（例：Action（行為）、Ingredient（材料）、Tool（道具）、Location（場所））を捉えます。一方で文脈的事実は、それらがビデオ内でどのように述語—項（述語引数）の形で実際に実現されているかを捉えます。評価を完全かつ役割整合的に行うために、DualFactは暗黙の引数拡張（VIA）と、対比的な事実集合（contrastive fact sets）を組み込みます。DualFactは2つのモードで実装します：DualFact-Tはテキスト根拠に対して事実を検証し、DualFact-Vはビデオに根差した視覚的根拠に対して事実を検証します。YouCook3-FactおよびCraftBench-Factに関する実験では、最先端のマルチモーダル言語モデルが流暢なものの、多くの場合に事実として不完全なキャプションを生成することが示されます。そこでは、体系的な脱落（オミッション）と、役割レベルでの不整合が見られます。DualFactは、標準的な指標よりも、人間の事実性判断との相関がより強く、特に文脈的事実においてその傾向が顕著です。また、ビデオに根差した検証と比べて、キャプションのみの評価は幻覚（ハルシネーション）を過大評価することが明らかになります。全体として、DualFactは、解釈可能で人間に整合した評価プロトコルを提供し、表層的な流暢さを超えて、マルチモーダルな事実的根拠付けにおける持続的な課題を浮き彫りにします。