EVA:エンドツーエンド動画エージェントのための効率的強化学習

arXiv cs.CL / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • EVA(Efficient Reinforcement Learning for End-to-End Video Agent)は、長い動画の冗長なフレームや時間的依存に起因する、MLLMにおける動画理解の非効率さを解決するエンドツーエンド動画エージェントの枠組みを提案しています。
  • EVAは「計画→知覚」の順に進める計画先行(summary-plan-action-reflection)を反復し、必要な部分だけを“いつ・何を・どう”観るかを自律的に意思決定します。
  • 学習はSFT(教師あり微調整)からKTO(Kahneman-Tversky Optimization)、GRPO(Generalized Reward Policy Optimization)へと進む3段階パイプラインで、模倣学習と強化学習を橋渡しする設計になっています。
  • 6つの動画理解ベンチマークで評価し、一般的なMLLMベースラインに対して6〜12%の改善、既存の適応型エージェントに対してさらに1〜3%上乗せする結果を報告しています。

Abstract

マルチモーダル大規模言語モデル(MLLMs)による動画理解は、動画のトークン列が長いことにより、時間的な依存関係が広範に存在し、冗長なフレームも含まれるため、依然として困難です。既存のアプローチは一般に、MLLMを受動的な認識器として扱い、適応的な推論を行わずに、動画全体または一様にサンプリングしたフレームを処理するだけです。近年のエージェントベースの手法では外部ツールが導入されていますが、それでも手作業で設計されたワークフローや、知覚を先に行う方針に依存しているため、長い動画に対して非効率です。私たちは、効率的強化学習フレームワークであるEVA(End-to-End Video AgentのためのEfficient Reinforcement Learning)を提案します。EVAは、反復的な要約-計画-行動-省察の推論によって「知覚の前に計画する」ことを可能にします。EVAは自律的に、何を見るべきか、いつ見るべきか、どのように見るべきかを決定し、クエリ駆動で効率的な動画理解を実現します。このようなエージェントを訓練するために、教師あり模倣と強化学習を橋渡しする、シンプルながら効果的な3段階の学習パイプラインを設計します。すなわち、教師ありファインチューニング(SFT)、Kahneman-Tversky最適化(KTO)、一般化報酬方策最適化(GRPO)から構成されます。さらに、各段階のために高品質なデータセットを構築し、安定かつ再現可能な訓練を支えます。私たちは6つの動画理解ベンチマークにおいてEVAを評価し、その包括的な能力を示します。既存のベースラインと比べて、EVAは汎用MLLMベースラインに対して6〜12%の大幅な改善を達成し、さらに先行する適応型エージェント手法に対して1〜3%の上乗せ改善を示します。コードとモデルは https://github.com/wangruohui/EfficientVideoAgent で公開しています。