EVA：エンドツーエンド動画エージェントのための効率的強化学習

arXiv cs.CL / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

EVA（Efficient Reinforcement Learning for End-to-End Video Agent）は、長い動画の冗長なフレームや時間的依存に起因する、MLLMにおける動画理解の非効率さを解決するエンドツーエンド動画エージェントの枠組みを提案しています。
EVAは「計画→知覚」の順に進める計画先行（summary-plan-action-reflection）を反復し、必要な部分だけを“いつ・何を・どう”観るかを自律的に意思決定します。
学習はSFT（教師あり微調整）からKTO（Kahneman-Tversky Optimization）、GRPO（Generalized Reward Policy Optimization）へと進む3段階パイプラインで、模倣学習と強化学習を橋渡しする設計になっています。
6つの動画理解ベンチマークで評価し、一般的なMLLMベースラインに対して6〜12%の改善、既存の適応型エージェントに対してさらに1〜3%上乗せする結果を報告しています。

Abstract

マルチモーダル大規模言語モデル（MLLMs）による動画理解は、動画のトークン列が長いことにより、時間的な依存関係が広範に存在し、冗長なフレームも含まれるため、依然として困難です。既存のアプローチは一般に、MLLMを受動的な認識器として扱い、適応的な推論を行わずに、動画全体または一様にサンプリングしたフレームを処理するだけです。近年のエージェントベースの手法では外部ツールが導入されていますが、それでも手作業で設計されたワークフローや、知覚を先に行う方針に依存しているため、長い動画に対して非効率です。私たちは、効率的強化学習フレームワークであるEVA（End-to-End Video AgentのためのEfficient Reinforcement Learning）を提案します。EVAは、反復的な要約-計画-行動-省察の推論によって「知覚の前に計画する」ことを可能にします。EVAは自律的に、何を見るべきか、いつ見るべきか、どのように見るべきかを決定し、クエリ駆動で効率的な動画理解を実現します。このようなエージェントを訓練するために、教師あり模倣と強化学習を橋渡しする、シンプルながら効果的な3段階の学習パイプラインを設計します。すなわち、教師ありファインチューニング（SFT）、Kahneman-Tversky最適化（KTO）、一般化報酬方策最適化（GRPO）から構成されます。さらに、各段階のために高品質なデータセットを構築し、安定かつ再現可能な訓練を支えます。私たちは6つの動画理解ベンチマークにおいてEVAを評価し、その包括的な能力を示します。既存のベースラインと比べて、EVAは汎用MLLMベースラインに対して6〜12%の大幅な改善を達成し、さらに先行する適応型エージェント手法に対して1〜3%の上乗せ改善を示します。コードとモデルは https://github.com/wangruohui/EfficientVideoAgent で公開しています。

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

機械学習・ディープラーニングにおける数学の必要性

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Santa Augmentcode Intent Ep.6

Dev.to

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

Dev.to

EVA：エンドツーエンド動画エージェントのための効率的強化学習

要点

Abstract

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

機械学習・ディープラーニングにおける数学の必要性

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Santa Augmentcode Intent Ep.6

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer