Find, Fix, Reason:ビデオ推論のためのコンテキスト修復

arXiv cs.CV / 2026/4/20

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • この論文は「Find, Fix, Reason」として、質問はそのままに元動画へ最小限の不足スパイオ・テンポラルな証拠(エビデンス)を補うことで、ビデオ推論のための観測レベルのコンテキスト修復を提案しています。
  • 凍結したツール統合ティーチャーモデルが欠けている依存関係を特定し、特定のタイムスタンプや領域などの“エビデンスパッチ”を提示し、それを学生モデルが使って再度回答して学習します。
  • 学習はGroup Relative Policy Optimization(GRPO)に組み込まれたchosen-rolloutスキームで行い、トレーニングスタックへの最小変更で、因果的に意味のある方向へ探索を導きつつオンポリシー探索を維持することを狙っています。
  • Robust Improvement Reward(RIR)を導入し、正答によるアウトカムの妥当性と、提示された証拠に整合した推論(ラショネール)を両方最適化する設計になっています。
  • 関連ベンチマークで一貫した精度向上と強い汎化が得られたとされ、著者らはWebページとソースコードを公開予定です。

Abstract

強化学習は、大規模マルチモーダルモデルにおける動画推論を大きく前進させてきました。しかし主流のパイプラインには、(1) モデルの知識の境界で頭打ちになるオンポリシーの自己探索に依存するもの、または (2) 複数のポリシーを混ぜ合わせるハイブリッドリプレイを行い、注意深い正則化を要するもの、のいずれかが多く見られます。動的コンテキスト手法は、焦点を当てた証拠にズームすることに長けていますが、しばしば厳選された事前学習や二段階のチューニングを必要とし、さらにそのコンテキストは小型モデルの能力によって上限が決まってしまいます。これに対して、より大きなモデルは指示追従とマルチモーダル理解に優れており、小型モデルに対してより豊かなコンテキストを供給できます。また、シンプルなツールによって目標領域へ素早くズームインできます。この能力を土台として、我々は観測レベルの介入を導入します。凍結された、ツール統合済みの教師が、欠けている時空間的な依存関係を特定し、質問が変わらないまま、元の動画から最小限の証拠パッチ(例:タイムスタンプ、領域など)を提示します。学生は追加されたコンテキストで再び回答し、Group Relative Policy Optimization(GRPO)に統合された選択ロールアウト方式により学習を更新します。さらに、最適化を2つの目標に整合させるRobust Improvement Reward(RIR)も提案します。すなわち、正しい回答による結果の妥当性と、引用された証拠を反映する論理による依存関係の整合です。提案手法の利点は、バッチ全体でグループ正規化を行うことで、オンポリシー探索を維持しつつ、学習スタックへの最小限の変更で、因果的に意味のある方向へと探索を導ける点にあります。関連するさまざまなベンチマークでの実験では、一貫した精度向上と強い汎化性能が示されています。Webページおよびソースコードは https://github.com/JethroJames/FFR.git で公開します。