コンピュータ使用エージェントのためのビデオベース報酬モデリング
arXiv cs.CL / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、エージェントの内部推論ではなく実行ビデオを用いることで、コンピュータ使用エージェント(CUAs)のビデオベースの報酬モデリングを提案し、隠れた思考や行動に依存しない評価を可能にします。
- ExeVR-53kという、53,000の動画–タスク–報酬の三つ組データセットを公開し、ステップレベルの注釈を付与した負例を生成するために敵対的指示翻訳を活用します。
- この手法では、長く高解像度の実行動画から学習を効率化するために、時空トークン剪定を設計し、決定的なUIの変化を保持します。
- Execution Video Reward Model(ExeVRM)をファインチューニングし、ユーザー指示と動画シークエンスのみからタスクの成功を予測することで、精度84.7%、再現率87.7%を達成し、Ubuntu、macOS、Windows、Androidの各環境で、GPT-5.2やGemini-3 Proといった強力な独自モデルを上回り、より正確な時系列帰属も提供します。