DualFact+: 手順型ビデオ理解のためのマルチモーダル事実検証フレームワーク
arXiv cs.AI / 2026/4/29
📰 ニュースModels & Research
要点
- この論文では、手順型ビデオのキャプション生成において「概念的事実」と「文脈に根ざした事実」を分けて評価するデュアルレイヤー型のマルチモーダル事実評価フレームワークDualFactを提案している。
- DualFactは、暗黙の引数拡張(VIA)とコントラスト的な事実セットを用いて、より完全で役割整合的な事実検証を行う。
- 検証モードとしてDualFact-T(テキスト根拠に基づく検証)とDualFact-V(ビデオに根ざした視覚的根拠に基づく検証)の2種類を用意している。
- YouCook3-FactとCraftBench-Factの実験では、最先端のマルチモーダル言語モデルが「流暢だが事実としては不完全」になりがちで、体系的な省略や役割レベルの不整合が見られることを示している。
- DualFactは標準的な指標よりも人間の事実性判断と整合しやすく、特に文脈的事実でその傾向が強いとされる。また、キャプションのみの評価は、ビデオ根拠による検証と比べてハルシネーションを誤って捉えうることを明らかにしている。



