コンピュータ使用エージェントのための検証器を構築する技術

arXiv cs.AI / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、コンピュータ使用エージェント（CUA）の軌跡を信頼できる形で検証することが不可欠であると主張している。さもなければ、評価および学習のためのシグナルが信頼できないものになってしまうためである。
「Universal Verifier（ユニバーサル検証器）」を提示しており、4つの原則に基づいて構築されている。すなわち、意味のある非重複ルーブリック、プロセス報酬とアウトカム（結果）報酬の分離、制御可能／不可制御の失敗スコアリングの切り分け、そして長いホライゾンに対応するための分割統治的なスクリーンショット文脈管理である。
著者らは、新たに公開されたCUAVerifierBenchデータセットでこのアプローチを検証しており、プロセスおよびアウトカムの人手ラベルの双方を用いて、人間レベルの一致率を確認した。
ユニバーサル検証器は、WebVoyager（≥45%）やWebJudge（≥22%）のようなベースラインに比べて偽陽性を劇的に削減し（ほぼゼロに近い）、その改善は複数の設計上の選択を組み合わせたことによると説明している。
また、本研究では、自動研究エージェントが約70%の専門家品質に素早く到達できる一方で、検証器を再現するために必要なすべての要素を発見できるとは限らないことも指摘している。さらに、このシステムおよびベンチマークはMicrosoftによってオープンソース化されている。

要旨: コンピュータ利用エージェント（CUA）の軌跡（trajectory）の成否を検証することは重要な課題である。信頼できる検証がない場合、評価も学習の信号も信頼できない。本論文では、Webタスク向けの最先端の検証器（verifier）を構築することで得られた知見を、我々が「Universal Verifier」と呼ぶものとして提示する。Universal Verifierは、4つの主要原則に基づいて設計されている。1）ノイズを減らすために、有意で重なりのない基準からルーブリックを構成すること；2）補完的な信号を生み出すように、プロセス報酬とアウトカム報酬を分離すること。これにより、エージェントが正しい手順を踏んだが途中でブロックされる、あるいは予期しない経路で成功する、といったケースを捉えられる；3）よりきめ細かな失敗理解のために、カスケード的な誤りを生じさせない戦略によって、制御可能な失敗と制御不可能な失敗を区別してスコア化すること；そして4）軌跡内のすべてのスクリーンショットに注意を向ける、分割統治（divide-and-conquer）型のコンテキスト管理方式を用い、タスクの長い地平での信頼性を向上させること。これらの知見を、プロセスとアウトカムの両方について人手ラベルを持つ新しいCUA軌跡の集合であるCUAVerifierBenchで検証し、我々のUniversal Verifierが、人間同士が一致するのと同程度の頻度で人間と一致することを示す。WebVoyager（ $\geq$ 45\%）やWebJudge（ $\geq$ 22\%）のようなベースラインと比べて、誤検知率をほぼゼロまで低減したことを報告する。これらの向上が、上述した設計選択の累積的な効果に由来することを強調する。また、自動リサーチエージェントが、専門家品質の70\%を5\%の時間で達成する一方で、Universal Verifierを再現するのに必要なすべての戦略を発見できないことも見出した。我々はUniversal VerifierシステムとCUAVerifierBenchをオープンソース化した； https://github.com/microsoft/fara で利用可能である。