IntentScore: コンピュータ利用エージェントのための意図条件付きアクション評価

arXiv cs.AI / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 提案論文「IntentScore」は、Computer-Use Agentsが行う候補アクションの質を評価せずに実行してしまい、取り返しのつかない誤りが連鎖する問題に対処するプラン認識型の報酬モデルを提示しています。
  • IntentScoreは、3つのOSにまたがる398K件のオフラインGUI操作ステップから学習し、(1)状態-行動の関連性を高めるコントラスティブ整合と、(2)行動の正しさを順位付けするマージンランキングの2つの目的で訓練します。
  • アーキテクチャとして、候補アクションに含まれる「計画上の意図」をアクションエンコーダに埋め込み、類似した操作でも異なる合理(意図)に基づく候補を識別できるようにしています。
  • Held-out評価で97.5%のペアワイズ判別精度を達成し、学習で未遭遇のOSWorld環境でAgent S3のリランカーとして用いるとタスク成功率が6.9ポイント向上したことが示されています。

Abstract

コンピュータ利用エージェント(CUA)は、大規模言語モデルを活用してデスクトップ環境上でGUI操作を実行しますが、行動の質を評価せずに行動を生成するため、取り返しのつかないエラーが後続の手順へと連鎖します。そこで本研究では、IntentScore を提案します。IntentScore は、候補となる行動を 398K 件のオフラインGUIインタラクション手順(3つのOSにまたがる)からスコア付けする計画を考慮した報酬モデルです。IntentScore は、2つの相補的な目的で学習します。すなわち、状態-行動の関連性のためのコントラストive アラインメントと、行動の正しさのためのマージンランキングです。アーキテクチャとしては、各候補の計画上の意図を行動エンコーダに埋め込むことで、似た行動であっても異なる論拠(合理性)を持つ候補同士の識別を可能にします。IntentScore は、保持した評価データにおいて 97.5% のペアワイズ識別精度を達成します。訓練中には一切見たことのない環境である OSWorld 上で、Agent S3 のリランカーとして導入すると、IntentScore はタスク成功率を 6.9 ポイント改善し、異種のオフライン軌跡から学習した報酬推定が、未見のエージェントやタスク分布にも一般化することを示します。