AlphaEval: 実運用におけるエージェントの評価

arXiv cs.CL / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、現在のエージェント用ベンチマークが、暗黙の制約、多様なモダリティを含む入力、長期にわたる成果物、そして変化する専門家の判断などの実運用上の現実を反映できていないと主張する。
7つの企業から収集した94のタスクを、6つのO*NETドメインにまたがって構成し、モデル単体の能力ではなく（例：Claude Code、Codex のような）完全なエージェント製品を評価するための、実運用に根ざしたベンチマーク「AlphaEval」を導入する。
AlphaEvalの評価フレームワークは、LLM-as-a-Judge、参照に基づく指標、形式的検証、ルーブリックに基づく評価、自動化されたUIテストなど複数のパラダイムを、各ドメイン内で体系化して組み合わせる。
さらに、本稿では、実際の実運用要件を、再現性と再利用のために最小限の時間で実行可能な評価タスクへと体系的に変換する「要求からベンチマークを構築する」ためのフレームワークも提案する。

概要: 商用環境におけるAIエージェントの急速な展開は、プロダクションの現実を反映する評価手法の開発を上回っています。既存のベンチマークは、後から編集されたタスクと、要件が明確に定義され決定論的な指標によってエージェントの能力を測定します。しかしこれらの条件は、要件に暗黙の制約を含む、入力が異種のマルチモーダル文書であり、情報が複数のソースに断片化されている、タスクが宣言されていない領域の専門知識を要求する、出力が長期のプロフェッショナルな成果物である、そして成功が時間とともに基準が変化する領域の専門家によって判断される、といったプロダクション環境とは本質的に異なります。私たちは、7社の企業が自社の中核業務においてAIエージェントを導入していることに由来する94のタスクからなる、プロダクションに根ざしたベンチマークAlphaEvalを提示します。これは6つのO*NET（職業情報ネットワーク）のドメインにまたがります。モデル中心のベンチマークとは異なり、AlphaEvalは、Claude Code、Codex などの完成したエージェント製品を、商用システムとして評価し、モデルレベルの評価では見えない性能のばらつきを捉えます。評価フレームワークは、複数のパラダイム（LLM-as-a-Judge、参照に基づく指標、形式検証、ルーブリックに基づく評価、自動UIテストなど）をカバーしており、各ドメインは複数のパラダイムで構成されています。ベンチマークそのものに加えて、要件からベンチマークを構築するためのフレームワーク、すなわち、実際のプロダクション要件を最小の時間で実行可能な評価タスクへと変換するための体系的な手法を提供します。このフレームワークは、要件から評価までのパイプライン全体を標準化し、再現可能でモジュール化されたプロセスとして、任意の組織が自社のドメインに対してプロダクションに根ざしたベンチマークを構築するために採用できるようにします。