BenchGuard:ベンチマークを守るのは誰か?LLMエージェント・ベンチマークの自動監査

arXiv cs.CL / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、LLMエージェントのベンチマーク結果に見える失敗の多くが、エージェントの不具合ではなく、仕様の破損、暗黙の前提、過度に硬直した評価スクリプトなど「欠陥のあるベンチマーク」に起因する場合があると主張しています。
  • BenchGuardは、フロンティアLLMを用いて構造化されたLLMプロトコルでベンチマーク成果物を相互検証し、診断の補助としてエージェントの解答や実行トレースを任意で組み込める自動監査フレームワークです。
  • BenchGuardはScienceAgentBenchで著者確認済みの12件の問題を発見し、その中にはタスクを不可能にしてしまう致命的な仕様ミスも含まれており、重大な欠陥を見抜けることを示しました。
  • BIXBench Verified-50では、BenchGuardが専門家が特定した問題の83.3%を一致させ、これまでの人手レビューで見逃されていた誤りも捕捉したと報告しています。
  • 50件の複雑なバイオインフォマティクス課題の監査費用は15米ドル未満であり、自動ベンチマーク監査が手作業によるレビューの現実的な補完になり得ること、また評価基盤の検証にAIを活用する方向性を示しています。

要旨: ベンチマークが複雑化するにつれ、多くの見かけ上のエージェント失敗は、そもそもエージェントの失敗ではありません――それはベンチマーク自体の失敗です。すなわち、壊れた仕様、暗黙の前提、そして有効な代替アプローチを罰してしまうような硬直した評価スクリプトです。私たちは、最先端のLLMを評価インフラの体系的な監査者として用いることを提案し、このビジョンを BenchGuard という、タスク指向かつ実行ベースのエージェントベンチマーク向けとしては初の自動監査フレームワークによって実現します。BenchGuard は、構造化されたLLMプロトコルを通じて、すべてのベンチマーク成果物を相互検証し、オプションとして、追加の診断証拠としてエージェントの解答や実行トレースを取り込むことができます。2つの著名な科学ベンチマークに導入したところ、BenchGuard は ScienceAgentBench において著者によって確認された12件の問題を特定しました――タスクを致命的に解けないものとしてしまう誤りを含む――そして BIXBench の Verified-50 サブセットにおいて、専門家によって特定された問題と正確に83.3%一致し、先行する人手によるレビューでは見落とされていた欠陥を完全に見つけ出しました。複雑なバイオインフォマティクスの50のタスクを完全に監査するのにかかる費用は15米ドル未満であり、自動ベンチマーク監査は、人手によるレビューに対する現実的で価値ある補完となります。これらの結果は、AI支援によるベンチマーク開発へとつながります。そこでは、最先端モデルが評価の対象であるだけでなく、評価インフラそのものを検証する能動的な参加者として機能します。