EVA:エンドツーエンド動画エージェントのための効率的強化学習
arXiv cs.CL / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- EVA(Efficient Reinforcement Learning for End-to-End Video Agent)は、長い動画の冗長なフレームや時間的依存に起因する、MLLMにおける動画理解の非効率さを解決するエンドツーエンド動画エージェントの枠組みを提案しています。
- EVAは「計画→知覚」の順に進める計画先行(summary-plan-action-reflection)を反復し、必要な部分だけを“いつ・何を・どう”観るかを自律的に意思決定します。
- 学習はSFT(教師あり微調整)からKTO(Kahneman-Tversky Optimization)、GRPO(Generalized Reward Policy Optimization)へと進む3段階パイプラインで、模倣学習と強化学習を橋渡しする設計になっています。
- 6つの動画理解ベンチマークで評価し、一般的なMLLMベースラインに対して6〜12%の改善、既存の適応型エージェントに対してさらに1〜3%上乗せする結果を報告しています。
