AgentProcessBench: ツールを使用するエージェントのステップレベルのプロセス品質を診断する

arXiv cs.AI / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は AgentProcessBench を提案します。これは、LLMベースのエージェントのツール補助を受けた推論軌跡におけるステップレベルの有効性を評価することに特化した最初のベンチマークです。
1,000 件の推論軌跡と 8,509 件の人手ラベル付けステップ注釈を含み、アノテータ間一致率は 89.1% です。
本ベンチマークは三値ラベリング方式と誤差伝搬ルールを採用して、ラベリングの曖昧さを低減します。
実験結果は、弱い方策モデルが早期終了のため正しいステップの割合を過大評価させることを示し、中立的な行動と誤った行動を区別することは依然として難しく、プロセス由来の信号はアウトカム監督を補完して推論時のスケーリングを改善します。コードとデータは、リンク先の GitHub リポジトリで利用可能です。

要約: 大規模言語モデル（LLMs）は道具を使うエージェントへと進化した一方で、長期的な相互作用には脆弱性が残る。バックトラックによって多くの誤りを訂正できる数学的推論とは異なり、ツール使用の失敗はしばしば不可逆的な副作用を引き起こすことがあり、正確なステップ単位の検証が重要になる。ただし、既存のプロセスレベルのベンチマークは主にクローズドワールドの数学的領域に限定されており、ツール実行の動的でオープンエンドな性質を捉えきれていない。このギャップを埋めるべく、現実的なツール補助の軌跡におけるステップレベルの有効性を評価する最初のベンチマークとして AgentProcessBench を導入する。このベンチマークは 1,000 の多様な軌跡と 8,509 件の人手ラベル付きステップ注釈を含み、インタアノテーター間の一致率は 89.1% です。探索を捉えるための三値ラベリング方式と、ラベリングの曖昧さを減らすエラー伝搬規則を特徴としています。広範な実験から以下の重要な洞察が得られます: (1) 弱いポリシーモデルは早期終了によって正しいステップの割合が過大になる; (2) 現在のモデルにとって、中立的な行動と誤った行動を区別することは依然として重要な課題である; (3) プロセス由来の信号はアウトカム監督に対して補完的な価値を提供し、テスト時のスケーリングを大幅に向上させる。 AgentProcessBench が報酬モデルの将来の研究を促進し、汎用エージェントへの道を切り開くことを期待します。コードとデータは https://github.com/RUCBM/AgentProcessBench に公開されています。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

AgentProcessBench: ツールを使用するエージェントのステップレベルのプロセス品質を診断する

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer