ツール利用型言語エージェントの評価：Judgeの信頼性、伝播カスケード、AgentProp-Benchでの実行時緩和

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文は、2,000タスク（2,300トレース）のツール利用型LLMエージェント向けベンチマークAgentProp-Benchを提示し、人手で検証された100ラベル部分集合を用いて評価の信頼性に関する前提を検証します。
substringベースの単純な判定は、人手アノテーションとの一致が実質的に偶然レベル（kappa=0.049）である一方、3つのLLMによるアンサンブル判定では一致が中程度に改善しました（kappa=0.432、ただし保守的バイアス）。
研究では誤りの伝播も定量化し、パラメータレベルの注入が誤った最終回答につながる確率が、人間校正で約0.62（モデル間で0.46〜0.73）であることを示します。
不良パラメータの拒否（catching）と、受け入れ後の修正（recovery）はモデルの別々の能力であり、相関が小さいこと（Spearman rho=0.126, p=0.747）が示唆されます。
実行時インターセプタを調整するとGPT-4o-miniで幻覚が23.0ポイント減少しますが、Gemini-2.0-Flashでは標的となる失敗モード自体を積極的なパラメータ拒否が防いでいるため有意な効果が見られません。

概要: ツールを使用する大規模言語モデル（LLM）エージェントの自動評価は広く信頼できると考えられていますが、この前提が人手による注釈に対して検証されたことはほとんどありません。私たちは、4つのドメインにまたがる2,300本のトレース、9つの本番用LLM、そして100件の人手による検証済みサブセットを含む、2,000タスクのベンチマーク「AgentProp-Bench」を導入します。審判（judge）の信頼性を定量化し、誤りの伝播を特徴づけ、実行時の緩和策を評価します。部分文字列ベースの判断は、kappa=0.049（偶然レベル）で人手注釈と一致します。一方、3つのLLMによるアンサンブルは、保守的バイアスによりkappa=0.432（中程度）に到達します。検証済みの評価では、パラメータ単位の注入が、最終的な誤答へ伝播する確率は、人間が調整した値で約0.62です（モデル間の範囲は0.46〜0.73）。拒否（不適切なパラメータを検出すること）と回復（受理後に修正すること）は独立したモデル能力です（Spearmanのrho=0.126、p=0.747）。チューニングされた実行時インターセプタにより、同時実行のn=600の対照条件のもとで、GPT-4o-miniの幻覚は23.0パーセントポイント低減しますが、Gemini-2.0-Flashでは有意な効果が見られません。Gemini-2.0-Flashは、積極的なパラメータ拒否によって、対象となる失敗モードを排除しているためです。すべてのコード、データ、トレース、および人手ラベルは https://github.com/bhaskargurram-ai/agenthallu-bench で公開します。

AIエージェントで人事制度が耐えられない話

note

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週火・木・土の18:00に投稿！】

note

【本音検証】Claude Opus 4.7は本当にすごい？5項目の評価を本音レビュー

note

【個人開発ストーリー】サボったらAIが煽ってくる筋トレアプリ「FitLoop」を6日で作ってApp Storeに出した全記録

note

「世界平和」を同じプロンプトで問うたら、AIの個性が爆発した夜。Gemini vs ChatGPT今夜開幕したw｜夜のAI対話録#9

note

ツール利用型言語エージェントの評価：Judgeの信頼性、伝播カスケード、AgentProp-Benchでの実行時緩和

要点

関連記事

AIエージェントで人事制度が耐えられない話

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週火・木・土の18:00に投稿！】

【本音検証】Claude Opus 4.7は本当にすごい？5項目の評価を本音レビュー

【個人開発ストーリー】サボったらAIが煽ってくる筋トレアプリ「FitLoop」を6日で作ってApp Storeに出した全記録

「世界平和」を同じプロンプトで問うたら、AIの個性が爆発した夜。Gemini vs ChatGPT今夜開幕したw｜夜のAI対話録#9

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIエージェントで人事制度が耐えられない話

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週 火・木・土の18:00に投稿！】

【本音検証】Claude Opus 4.7は本当にすごい？5項目の評価を本音レビュー

【個人開発ストーリー】サボったらAIが煽ってくる筋トレアプリ「FitLoop」を6日で作ってApp Storeに出した全記録

「世界平和」を同じプロンプトで問うたら、AIの個性が爆発した夜。Gemini vs ChatGPT今夜開幕したw｜夜のAI対話録#9

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ミツカル｜生成AIツール専門比較・ランキングメディア【毎週火・木・土の18:00に投稿！】