IntentScore: コンピュータ利用エージェントのための意図条件付きアクション評価

arXiv cs.AI / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

提案論文「IntentScore」は、Computer-Use Agentsが行う候補アクションの質を評価せずに実行してしまい、取り返しのつかない誤りが連鎖する問題に対処するプラン認識型の報酬モデルを提示しています。
IntentScoreは、3つのOSにまたがる398K件のオフラインGUI操作ステップから学習し、(1)状態-行動の関連性を高めるコントラスティブ整合と、(2)行動の正しさを順位付けするマージンランキングの2つの目的で訓練します。
アーキテクチャとして、候補アクションに含まれる「計画上の意図」をアクションエンコーダに埋め込み、類似した操作でも異なる合理（意図）に基づく候補を識別できるようにしています。
Held-out評価で97.5%のペアワイズ判別精度を達成し、学習で未遭遇のOSWorld環境でAgent S3のリランカーとして用いるとタスク成功率が6.9ポイント向上したことが示されています。

Abstract

コンピュータ利用エージェント（CUA）は、大規模言語モデルを活用してデスクトップ環境上でGUI操作を実行しますが、行動の質を評価せずに行動を生成するため、取り返しのつかないエラーが後続の手順へと連鎖します。そこで本研究では、IntentScore を提案します。IntentScore は、候補となる行動を 398K 件のオフラインGUIインタラクション手順（3つのOSにまたがる）からスコア付けする計画を考慮した報酬モデルです。IntentScore は、2つの相補的な目的で学習します。すなわち、状態-行動の関連性のためのコントラストive アラインメントと、行動の正しさのためのマージンランキングです。アーキテクチャとしては、各候補の計画上の意図を行動エンコーダに埋め込むことで、似た行動であっても異なる論拠（合理性）を持つ候補同士の識別を可能にします。IntentScore は、保持した評価データにおいて 97.5% のペアワイズ識別精度を達成します。訓練中には一切見たことのない環境である OSWorld 上で、Agent S3 のリランカーとして導入すると、IntentScore はタスク成功率を 6.9 ポイント改善し、異種のオフライン軌跡から学習した報酬推定が、未見のエージェントやタスク分布にも一般化することを示します。

Black Hat Asia

AI Business

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

日経XTECH

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

日経XTECH

IntentScore: コンピュータ利用エージェントのための意図条件付きアクション評価

要点

Abstract

関連記事

Black Hat Asia

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

ザハ事務所出身の建築家、AI前提の設計法を実践 設計者はキュレーターに

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」 リアルな現場も効率化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化