構造化された報酬によってビデオMLLMの一貫性を強化する
arXiv cs.CV / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ビデオ・マルチモーダル大規模言語モデル(MLLM)における主要な失敗モードを特定する。すなわち、出力が全体としてはもっともらしく聞こえる一方で、視覚的および時間的な根拠づけが欠けている場合がある(例:幻覚的な物体、誤った属性、繰り返し事象の崩壊)。
- キャプションを事実的主張と時間的主張に分解する、構成的な一貫性監査(compositional consistency audit)を導入し、正しい高レベルの回答が、妥当な低レベルの根拠によって裏付けられているかを検証する。その結果、正しい根となる関係(root relational)主張であっても、属性・存在の裏づけが信頼できないことが多いと分かる。
- 文レベルの教師あり学習や文レベルのRL報酬は、忠実なビデオ理解にとって重要な特定の根拠づけの失敗を局所化するには粗すぎると論じる。
- 著者らは、次の3つから構成される構造化強化学習報酬を提案する: (1) インスタンスを意識したシーングラフの事実報酬、(2) 事象の順序・反復に対する時間報酬、(3) ビデオに根拠づけられたVQA階層的自己検証報酬。
- 時間的理解、一般的なビデオ理解、幻覚に焦点を当てたベンチマークに関する実験では、オープンソースのMLLMバックボーン全体で一貫した改善が示され、構造化された報酬設計が、より忠実なビデオ推論への実用的な道筋であることを裏づける。




