ACE-Bench: 軽量な環境下でスケーラブルなホライズンと制御可能な難易度を実現する、エージェント設定可能な評価

arXiv cs.AI / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、従来ベンチマークにおける評価時間の最大で約41%を占めていた環境との相互作用オーバーヘッドを削減することを目的とした、エージェント評価用ベンチマーク「ACE-Bench」を提案する。軽量で静的なツール導入により、この削減を実現する。
  • ACE-Benchは、統一されたグリッドベースの計画タスクを中心に評価を標準化する。エージェントは部分的に完成したスケジュールのうち隠れたスロットを埋め、局所的および大域的な制約を満たす。
  • 隠れスロット数による「Scalable Horizons(スケーラブルなホライズン)」と、デコイ予算による「Controllable Difficulty(制御可能な難易度)」という2つの直交するパラメータによって、タスクのホライズンと難易度を細粒度かつ解釈可能に制御できる。
  • すべてのツール呼び出しは、軽量環境における静的JSONファイルによって解決される。これによりセットアップ速度が向上し、学習時の検証に適した高速かつ再現可能な評価が可能になる。
  • 6つのドメインにまたがり13のモデルファミリとサイズに対して実験を行った結果、ホライズン/難易度の制御が確実であり、ドメイン間の一貫性が強く、モデル間での性能差が意味のある形で現れることが示された。これはモデルの識別可能性の向上を示唆している。

要旨: 既存のエージェントベンチマークには、2つの重要な制約があります。環境との相互作用に伴うオーバーヘッドが大きい(評価時間全体の最大41\%)こと、また課題のホライゾンと難易度の分布が偏っているため、集計スコアが信頼できないことです。これらの課題に対処するため、部分的に完了したスケジュールにおける隠れたスロットを、ローカルなスロット制約とグローバルな制約の両方に従って埋める必要がある、統一されたグリッドベースの計画タスクを基盤にした ACE-Bench を提案します。私たちのベンチマークは、2つの直交する軸によってきめ細かな制御を提供します。スケーラブル・ホライゾンは、隠れスロット数 H によって制御されます。さらに、制御可能な難易度は、デコイ予算 B によって決まり、グローバルに誤誘導するデコイ候補の数を規定します。重要なのは、すべてのツール呼び出しが Lightweight Environment の設計のもとで静的な JSON ファイルによって解決され、セットアップのオーバーヘッドを排除している点です。これにより、訓練時のバリデーションに適した高速で再現可能な評価を実現します。まず、HB がタスクのホライゾンと難易度を信頼性の高い形で制御できること、そして ACE-Bench が強い領域一貫性とモデル識別可能性を示すことを検証します。次に、多様なサイズと系統の13モデル、6つの領域にわたって包括的な実験を行い、大きなモデル間パフォーマンスのばらつきを明らかにし、さらに ACE-Bench がエージェント推論を解釈可能で制御可能な形で評価できることを確認します。