マルチ目的アライメントによる構造化因果ビデオ推論

arXiv cs.CL / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存のVideo-LLMが、実体・行為・時間的関係といった構造化されたメンタルモデルではなく非構造のテキストに依存しているため、因果推論が非効率で脆弱になりがちだと主張する。
  • 主推論の前に、重要な出来事と明示的な因果関係を捉えるコンパクトな構造化事前分布「Structured Event Facts」を提案する。
  • この構造化された事実でモデルを訓練するために、著者らは「CausalFact-60K」データセットと、4段階のパイプライン(事実アライメント、フォーマットのウォームスタート、思考のウォームスタート、RLベースの事後学習)を導入する。
  • 強化学習の際、本研究では、構造の完全性、因果的忠実性、推論の長さという競合する目標をマルチ目的強化学習(MORL)問題として扱い、トレードオフを管理するためにパレートフロンティアへ最適化する。
  • 得られたモデルである「Factum-4B」は、微細な時間的因果推論を要するビデオ理解ベンチマークにおいて、より信頼性の高い推論と性能向上を示したと報告されている。

概要: 動画ダイナミクスに対する人間の理解は、即時の演繹的推論のみに依存するのではなく、実体・行動・時間的関係を秩序立てて表現した心的表象に基づくのが一般的です。これに対し、既存のVideo-LLMの多くは、非構造的な動画推論に大きく依存しており、重要な視覚的証拠が冗長なテキスト記述の中に埋め込まれている一方で、時間的因果性はしばしば十分にモデル化されていません。その結果、処理が非効率になり、因果推論も脆くなります。この認知的なギャップを埋めるために、推論段階の前に、注目すべき出来事とそれらの因果関係をコンパクトに表現することを提案します。これをStructured Event Facts(構造化された出来事の事実)と呼びます。この構造化された事前情報は、簡潔で因果に根ざした推論を促すための明示的な制約として機能し、同時に中間証拠の検証もしやすくします。この種の構造化された事実に対してモデルを効果的に訓練するために、CausalFact-60Kと、事実アライメント、フォーマットのウォームスタート、思考のウォームスタート、そして強化学習に基づくポストトレーニングから成る4段階の学習パイプラインを導入します。RL段階では、この枠組みが競合する目的を導入することが分かります。すなわち、構造の完全性と因果的忠実度は、推論の長さとのバランスを取る必要があり、そのため最適化が難しくなります。そこで、この課題を最適化をMulti-Objective Reinforcement Learning(MORL:多目的強化学習)問題として定式化し、これらのトレードオフのバランスを取るためにPareto-Frontier(パレートフロンティア)へ向けて明示的に最適化することで解決します。その結果、Factum-4Bを導入し、より信頼性の高い推論を実現するとともに、細かな時間的推論を必要とする難しい動画理解タスクでより強力な性能を提供します。