ツール利用型言語エージェントの評価:Judgeの信頼性、伝播カスケード、AgentProp-Benchでの実行時緩和

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • この論文は、2,000タスク(2,300トレース)のツール利用型LLMエージェント向けベンチマークAgentProp-Benchを提示し、人手で検証された100ラベル部分集合を用いて評価の信頼性に関する前提を検証します。
  • substringベースの単純な判定は、人手アノテーションとの一致が実質的に偶然レベル(kappa=0.049)である一方、3つのLLMによるアンサンブル判定では一致が中程度に改善しました(kappa=0.432、ただし保守的バイアス)。
  • 研究では誤りの伝播も定量化し、パラメータレベルの注入が誤った最終回答につながる確率が、人間校正で約0.62(モデル間で0.46〜0.73)であることを示します。
  • 不良パラメータの拒否(catching)と、受け入れ後の修正(recovery)はモデルの別々の能力であり、相関が小さいこと(Spearman rho=0.126, p=0.747)が示唆されます。
  • 実行時インターセプタを調整するとGPT-4o-miniで幻覚が23.0ポイント減少しますが、Gemini-2.0-Flashでは標的となる失敗モード自体を積極的なパラメータ拒否が防いでいるため有意な効果が見られません。

概要: ツールを使用する大規模言語モデル(LLM)エージェントの自動評価は広く信頼できると考えられていますが、この前提が人手による注釈に対して検証されたことはほとんどありません。私たちは、4つのドメインにまたがる2,300本のトレース、9つの本番用LLM、そして100件の人手による検証済みサブセットを含む、2,000タスクのベンチマーク「AgentProp-Bench」を導入します。審判(judge)の信頼性を定量化し、誤りの伝播を特徴づけ、実行時の緩和策を評価します。部分文字列ベースの判断は、kappa=0.049(偶然レベル)で人手注釈と一致します。一方、3つのLLMによるアンサンブルは、保守的バイアスによりkappa=0.432(中程度)に到達します。検証済みの評価では、パラメータ単位の注入が、最終的な誤答へ伝播する確率は、人間が調整した値で約0.62です(モデル間の範囲は0.46〜0.73)。拒否(不適切なパラメータを検出すること)と回復(受理後に修正すること)は独立したモデル能力です(Spearmanのrho=0.126、p=0.747)。チューニングされた実行時インターセプタにより、同時実行のn=600の対照条件のもとで、GPT-4o-miniの幻覚は23.0パーセントポイント低減しますが、Gemini-2.0-Flashでは有意な効果が見られません。Gemini-2.0-Flashは、積極的なパラメータ拒否によって、対象となる失敗モードを排除しているためです。すべてのコード、データ、トレース、および人手ラベルは https://github.com/bhaskargurram-ai/agenthallu-bench で公開します。