コンピュータ使用エージェントのためのビデオベース報酬モデリング

arXiv cs.CL / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、エージェントの内部推論ではなく実行ビデオを用いることで、コンピュータ使用エージェント（CUAs）のビデオベースの報酬モデリングを提案し、隠れた思考や行動に依存しない評価を可能にします。
ExeVR-53kという、53,000の動画–タスク–報酬の三つ組データセットを公開し、ステップレベルの注釈を付与した負例を生成するために敵対的指示翻訳を活用します。
この手法では、長く高解像度の実行動画から学習を効率化するために、時空トークン剪定を設計し、決定的なUIの変化を保持します。
Execution Video Reward Model（ExeVRM）をファインチューニングし、ユーザー指示と動画シークエンスのみからタスクの成功を予測することで、精度84.7%、再現率87.7%を達成し、Ubuntu、macOS、Windows、Androidの各環境で、GPT-5.2やGemini-3 Proといった強力な独自モデルを上回り、より正確な時系列帰属も提供します。

Abstract

コンピューターを使用するエージェント（CUAs）はますます高性能になっている一方で、軌跡が本当にユーザーの指示を満たしているかを評価するスケーリングは依然として難しい。本研究では、内部推論や行動とは独立したエージェント軌跡のキーフレーム列である実行ビデオからの報酬モデリングを検討する。ビデオ実行モデリングは手法に依存しないが、成功を決定づける高度に冗長なレイアウトや微妙で局所的な手掛かりといった重要な課題を伴う。我々はExecution Video Reward 53k（ExeVR-53k）を導入する。53kの高品質な動画–タスク–報酬の三つ組データセットである。さらに、ステップレベルの注釈を合成するために敵対的指示翻訳を提案し、負例を生成する。長く高解像度の実行動画から学習を可能にするため、時空トークン剪定を設計し、均質な領域と持続的なトークンを除去しつつ決定的なUIの変化を保持する。これらの要素に基づき、ユーザー指示とビデオ実行シークエンスのみを入力としてタスクの成功を予測するExecution Video Reward Model（ExeVRM）をファインチューニングする。私たちのExeVRMは80億パラメータ（8B）で、ビデオ実行評価において84.7%の精度と87.7%の再現率を達成し、Ubuntu、macOS、Windows、Androidの各環境でGPT-5.2やGemini-3 Proといった強力な独自モデルを上回り、より正確な時系列帰属も提供する。これらの結果は、ビデオ実行報酬モデリングがCUAsのスケーラブルでモデル非依存の評価者となり得ることを示している。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/12Dailyインサイトを見る →

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

コンピュータ使用エージェントのためのビデオベース報酬モデリング

要点

Abstract

💡 この記事が使われたインサイト

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer