広告

構造化された報酬によってビデオMLLMの一貫性を強化する

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ビデオ・マルチモーダル大規模言語モデル(MLLM)における主要な失敗モードを特定する。すなわち、出力が全体としてはもっともらしく聞こえる一方で、視覚的および時間的な根拠づけが欠けている場合がある(例:幻覚的な物体、誤った属性、繰り返し事象の崩壊)。
  • キャプションを事実的主張と時間的主張に分解する、構成的な一貫性監査(compositional consistency audit)を導入し、正しい高レベルの回答が、妥当な低レベルの根拠によって裏付けられているかを検証する。その結果、正しい根となる関係(root relational)主張であっても、属性・存在の裏づけが信頼できないことが多いと分かる。
  • 文レベルの教師あり学習や文レベルのRL報酬は、忠実なビデオ理解にとって重要な特定の根拠づけの失敗を局所化するには粗すぎると論じる。
  • 著者らは、次の3つから構成される構造化強化学習報酬を提案する: (1) インスタンスを意識したシーングラフの事実報酬、(2) 事象の順序・反復に対する時間報酬、(3) ビデオに根拠づけられたVQA階層的自己検証報酬。
  • 時間的理解、一般的なビデオ理解、幻覚に焦点を当てたベンチマークに関する実験では、オープンソースのMLLMバックボーン全体で一貫した改善が示され、構造化された報酬設計が、より忠実なビデオ推論への実用的な道筋であることを裏づける。

Abstract

マルチモーダル大規模言語モデル(MLLM)は、動画理解において目覚ましい進歩を遂げてきました。しかし、一見もっともらしい出力であっても、視覚的および時間的な基盤(グラウンディング)が不十分であることがしばしばあります。モデルは、物体の存在をでっち上げたり、不正確な属性を割り当てたり、繰り返しイベントを潰してしまったりしながら、それでも全体としては妥当なキャプションや回答を生成することがあります。私たちは、キャプションを支持する事実的主張および時間的主張に分解する構成的一貫性監査(compositional consistency audit)を通して、この失敗モードを研究します。そして、高レベルの予測が、実際には妥当な低レベルの根拠によって裏付けられているかどうかを調べます。トップダウンの監査の結果、正しい根となる関係(root relational)の主張であっても、多くの場合、属性や存在に関する信頼できる裏付けが欠けていることがわかりました。これは、標準的な文レベルの教師信号が、忠実な動画理解に対する弱い代理(proxy)にすぎないことを示しています。さらに、より良い整合を目的として強化学習(RL)に取り組む場合でも、標準的な文レベルの報酬は、特定のグラウンディング失敗を正確に局在化するには粗すぎることが判明します。これに対処するために、汎用的な文レベル報酬を、事実的単位と時間的単位から構築される構造化された報酬に置き換えます。私たちの学習目的は、次の3つの補完的な要素を統合します:(1)事実的な対象物・属性・関係に対する、インスタンスを意識したシーングラフ報酬。(2)イベントの順序付けと反復に対する時間的報酬。(3)階層的自己検証のための、動画に基づくVQA報酬。時間的、一般的な動画理解、および幻覚(ハルシネーション)志向のベンチマークにおいて、この目的はオープンソースのバックボーンで一貫した改善をもたらします。これらの結果は、構造化された報酬によるシェーピングが、より忠実な動画理解への実用的な手段であることを示唆しています。

広告