コンピュータ使用エージェントのためのビデオベース報酬モデリング

arXiv cs.CL / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、エージェントの内部推論ではなく実行ビデオを用いることで、コンピュータ使用エージェント(CUAs)のビデオベースの報酬モデリングを提案し、隠れた思考や行動に依存しない評価を可能にします。
  • ExeVR-53kという、53,000の動画–タスク–報酬の三つ組データセットを公開し、ステップレベルの注釈を付与した負例を生成するために敵対的指示翻訳を活用します。
  • この手法では、長く高解像度の実行動画から学習を効率化するために、時空トークン剪定を設計し、決定的なUIの変化を保持します。
  • Execution Video Reward Model(ExeVRM)をファインチューニングし、ユーザー指示と動画シークエンスのみからタスクの成功を予測することで、精度84.7%、再現率87.7%を達成し、Ubuntu、macOS、Windows、Androidの各環境で、GPT-5.2やGemini-3 Proといった強力な独自モデルを上回り、より正確な時系列帰属も提供します。

Abstract

コンピューターを使用するエージェント(CUAs)はますます高性能になっている一方で、軌跡が本当にユーザーの指示を満たしているかを評価するスケーリングは依然として難しい。本研究では、内部推論や行動とは独立したエージェント軌跡のキーフレーム列である実行ビデオからの報酬モデリングを検討する。ビデオ実行モデリングは手法に依存しないが、成功を決定づける高度に冗長なレイアウトや微妙で局所的な手掛かりといった重要な課題を伴う。我々はExecution Video Reward 53k(ExeVR-53k)を導入する。53kの高品質な動画–タスク–報酬の三つ組データセットである。さらに、ステップレベルの注釈を合成するために敵対的指示翻訳を提案し、負例を生成する。長く高解像度の実行動画から学習を可能にするため、時空トークン剪定を設計し、均質な領域と持続的なトークンを除去しつつ決定的なUIの変化を保持する。これらの要素に基づき、ユーザー指示とビデオ実行シークエンスのみを入力としてタスクの成功を予測するExecution Video Reward Model(ExeVRM)をファインチューニングする。私たちのExeVRMは80億パラメータ(8B)で、ビデオ実行評価において84.7%の精度と87.7%の再現率を達成し、Ubuntu、macOS、Windows、Androidの各環境でGPT-5.2やGemini-3 Proといった強力な独自モデルを上回り、より正確な時系列帰属も提供する。これらの結果は、ビデオ実行報酬モデリングがCUAsのスケーラブルでモデル非依存の評価者となり得ることを示している。