要約: 大規模言語モデル(LLMs)は道具を使うエージェントへと進化した一方で、長期的な相互作用には脆弱性が残る。バックトラックによって多くの誤りを訂正できる数学的推論とは異なり、ツール使用の失敗はしばしば不可逆的な副作用を引き起こすことがあり、正確なステップ単位の検証が重要になる。ただし、既存のプロセスレベルのベンチマークは主にクローズドワールドの数学的領域に限定されており、ツール実行の動的でオープンエンドな性質を捉えきれていない。このギャップを埋めるべく、現実的なツール補助の軌跡におけるステップレベルの有効性を評価する最初のベンチマークとして AgentProcessBench を導入する。このベンチマークは 1,000 の多様な軌跡と 8,509 件の人手ラベル付きステップ注釈を含み、インタアノテーター間の一致率は 89.1% です。 探索を捉えるための三値ラベリング方式と、ラベリングの曖昧さを減らすエラー伝搬規則を特徴としています。 広範な実験から以下の重要な洞察が得られます: (1) 弱いポリシーモデルは早期終了によって正しいステップの割合が過大になる; (2) 現在のモデルにとって、中立的な行動と誤った行動を区別することは依然として重要な課題である; (3) プロセス由来の信号はアウトカム監督に対して補完的な価値を提供し、テスト時のスケーリングを大幅に向上させる。 AgentProcessBench が報酬モデルの将来の研究を促進し、汎用エージェントへの道を切り開くことを期待します。 コードとデータは https://github.com/RUCBM/AgentProcessBench に公開されています。
AgentProcessBench: ツールを使用するエージェントのステップレベルのプロセス品質を診断する
arXiv cs.AI / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は AgentProcessBench を提案します。これは、LLMベースのエージェントのツール補助を受けた推論軌跡におけるステップレベルの有効性を評価することに特化した最初のベンチマークです。
- 1,000 件の推論軌跡と 8,509 件の人手ラベル付けステップ注釈を含み、アノテータ間一致率は 89.1% です。
- 本ベンチマークは三値ラベリング方式と誤差伝搬ルールを採用して、ラベリングの曖昧さを低減します。
- 実験結果は、弱い方策モデルが早期終了のため正しいステップの割合を過大評価させることを示し、中立的な行動と誤った行動を区別することは依然として難しく、プロセス由来の信号はアウトカム監督を補完して推論時のスケーリングを改善します。コードとデータは、リンク先の GitHub リポジトリで利用可能です。