AIの評価(evals)が新しい計算(compute)のボトルネックになりつつあります
まとめ。 AI評価は、実施できる人を変えるコストの閾値を超えました。ホリスティック・エージェント・リーダーボード(HAL)は最近、9つのモデルと9つのベンチマークにわたって21,730件のエージェント・ロールアウトを実行するのに約40,000ドルを費やしました。フロンティア・モデルでのGAIA単発実行は、キャッシュなしだと2,829ドルかかり得ます。 Exgenticは、エージェント設定にまたがる22,000ドル規模の調査で、同一タスクにおいてコストのばらつきが33倍にもなることを見つけました。これにより、足場(スキャフォールド)選択が最初の次数のコスト要因であることが切り分けられ、さらに UK-AISIは最近、推論時の計算(compute)を調べるために、エージェントのステップ数を数百万規模まで拡大しました。科学的なMLでは、新しいアーキテクチャを1つ評価するのに約960時間のH100が必要で、4つのベースラインをすべて使った総当たりのスイープには3,840時間のH100が必要です。静的ベンチマーク向けには圧縮技術が提案されてきましたが、新しいエージェント・ベンチマークはノイズが多く、足場に敏感で、しかも部分的にしか圧縮できません。学習ループ内(トレーニング・イン・ザ・ループ)のベンチマークは、その構造上コストが高く、これらの評価に信頼性を追加しようとすると、繰り返し実行によってコストがさらに何倍にも膨らみます。
静的LLMベンチマークをより安くする
コスト問題はエージェントの前から始まっていた。2022年にスタンフォードのCRFMがHELMをリリースしたとき、論文自身によるモデルごとの会計では、OpenAIのcode-cushman-001がAPIコスト85ドルであるのに対し、AI21のJ1-Jumbo(178B)は10,926ドルと幅があり、さらにオープンモデルでは540〜4,200GPU時間だった。上限ではBLOOM(176B)とOPT(175B)が挙げられている。Perlitzら(2023)は、より大きいHELMのコスト傾向を言い直し、IBM Researchは、Granite-13BをHELMに通すと「最大で1,000GPU時間消費する」可能性があると述べている。HELMの30モデルと42シナリオを通じて、報告されたコストとGPU計算の合計はおよそ10万ドルだった。
もう一つの衝撃的な観察は、Perlitzらの分析(EleutherAIのPythiaチェックポイント)から現れた。モデル開発の間、開発者は評価のために何度も繰り返し支払う、という事実である。Pythiaは8つのサイズにまたがる16のモデルそれぞれについて154のチェックポイントをリリースしており、各モデルのチェックポイントを別々に数えるなら2,464チェックポイントになる。コミュニティは、学習ダイナミクスを調べられるようになる。LM Evaluation Harnessをそれら全てのチェックポイントにわたって実行すると、評価が学習の乗数になる。Perlitzら(2024)は、「チェックポイントを評価する場合、評価コストは事前学習のそれを上回ることさえあり得る」と指摘している。小規模モデルでは、評価が開発サイクル全体における主要な計算コスト項目になる。推論時の計算量をスケールさせれば、評価コストもスケールする。
その後、Perlitzらは「HELMのランキングに実際にどれほどの部分が寄与しているのか」を問いかけた。結果は驚くべきものだった。計算量を100倍〜200倍削減しても、ほぼ同じ順序が保持され、さらに大きい削減でも論文の段階化された分析の下での粗いグルーピングには有用だった。Flash-HELMはこの発見を、粗から細へという手順に落とし込んだ。まず安価な評価を実行し、その後トップ候補にだけ高解像度の計算を費やすのである。HELMの計算の多くは、分野の人々がもっと安く推測できたであろうランキングの確認作業だった。
他の研究も、別の角度から同じ結論に到達している。tinyBenchmarksは、Item Response Theoryを用いて、MMLUを14,000項目から100のアンカー項目へ、誤差約2%で圧縮した。Open LLM Leaderboardは29,000件の例から180へと縮小した。Anchor Pointsは、GLUEにおいて言語モデル/プロンプトのペア87組を順位付けするのに必要なのは、1〜30例という少数でもあり得ることを示し、その他もそれに続き、データセット規模を90%削減した。静的なベンチマークには、悪用できる弱点があった。モデルの違いはしばしば少数の項目に集中するため、思い切ったサブサンプリングでも順位は生き残り得るのだ。
しかし、この技は、ベンチマークが静的な予測からエージェントへ移行すると、急速に弱まった。
エージェント評価はより厄介
エージェント評価の優れた公開会計は、Holistic Agent Leaderboard(Kapoorら、ICLR 2026)から得られる。HALは、コーディング、Webナビゲーション、科学タスク、カスタマーサービスを含む9つのベンチマークに対して、標準化されたエージェント・ハーネスを適用する。共有された足場(scaffold)と集中型のコスト追跡がある。見出しのコストは、9つのモデルと9つのベンチマークに対する21,730ロールアウトで40,000ドル。2026年4月までに、リーダーボードは26,597ロールアウトへと増えている。Ndzomgaの独立した再現も、ほぼ同じ数に到達している。242のエージェント実行に対して46,000ドルである。
その集計の背後では、単一のベンチマーク実行のコストが、HALのタスク間で4桁も変動し、さらに一部の個別ベンチマーク内では3桁の差がある。
これらの数字の背後には、率直な価格設定という現実がある。Claude Opus 4.1は、入力トークン100万あたり15ドル、出力トークン100万あたり75ドルを請求する。Gemini 2.0 Flashは0.10ドルと0.40ドルで、入力だけでも2桁の開きがある。エージェント・ベンチマークでは、「モデル」を単独でベンチマークすることはほとんどない。モデル×足場×トークン予算という積としてベンチマークするのだ。小さな足場の選択がコストを10倍に増やし得る。
さらに悪いことに、支出が大きいほど、より良い結果が確実に得られるわけではない。Online Mind2Webでは、Claude Sonnet 4を用いたBrowser-Useは40%精度で1,577ドルだった。GPT-5 MediumでのSeeActは42%で171ドルにとどまる。HALの論文は、「精度の差がわずか2パーセントポイントであるにもかかわらず、コストは9倍の違いがある」と述べている。GAIAでは、o3 Mediumを使ったHALゼネラリストが28.5%精度で2,828ドルだったのに対し、別のエージェントは57.6%を1,686ドルで達成した。CLEARは、300のエンタープライズタスクにおいて6つのSOTAエージェントを横断すると、「精度を最適化した構成は、パレート効率的な代替案よりも4.4〜10.8倍コストがかかる」一方で、現実世界での性能は同程度であることを見出している。
静的な時代のツールキットは役に立つはずだったが、そこまでのものだった。Ndzomgaの中難度フィルタ(歴史的な合格率が30〜70%のタスクを選ぶ)では、足場や時間的なシフトの下で順位の忠実度を維持しつつ、2倍〜3.5倍の削減を達成している。これは有用だが、静的ベンチマークで利用可能な100倍〜200倍の伸びにははるかに及ばない。各項目が分散を伴う複数ターンのロールアウトであるなら、避けられない長い軌道が「単一の質問」あたりの高価な対象になる。
一部の評価は単なる学習
いくつかのベンチマークは、そもそも評価プロトコルがモデルを最初から学習するため、APIコストの枠組みから逃れている。
The Wellは、この点を非常に興味深い例として示している。生物システム、流体力学、マグネト流体力学、超新星爆発、粘弾性不安定、アクティブマターにまたがる科学的な機械学習データセット16をまとめており、合計で15TBになる。論文の見出しとなる16データセットのグリッドに従うと、節約の余地はほとんどない。つまり、単一のH100で12時間かけて各ベースラインモデルを学習し、(モデル、データセット)ペアごとに学習率を5通り試し、4つのアーキテクチャと16のデータセットにわたって繰り返す。見出しグリッドのスイープは3,840H100時間を消費し、下記の換算仮定に基づけばおよそ9,600ドル。新しいアーキテクチャを1つ追加するだけでも、約960H100時間、つまり約2,400ドルかかる。
ニューラルオペレーターを1つ学習するだけなら、単発の12時間H100実行で済む。一方で、それをベンチマーク全体で評価するには、80回のそのような学習が必要になる。この非対称性が、The Wellを重要なものにしている。このMLの一角では、評価の計算コストが学習の計算コストを、概ね2桁のオーダーで上回り、古いディープラーニングの頭のモデルを反転させる。
同じパターンがSciML全体に繰り返し現れます。PDEBenchは11のPDEファミリをカバーし、データセットおよびモデルファミリ全体でエポックあたりのタイミング表を報告していますが、クリーンな1アーキテクチャあたりのドル換算額は、選択した学習プロトコルとハードウェアによって左右されます。MLE-Bench(OpenAI)は、エージェントと学習のレジームの間に位置します。75のKaggleコンペティションのいずれかに対する各エージェントの試行は、1台のA10 GPUで24時間かけて行われ、実際のMLパイプラインを学習します。論文は明確にこう述べています。「私たちの主要な実験セットアップ(コンペ1回の試行あたり24時間)の単一実行は、コンペ75件分なので、24時間×75コンペ=1,800GPU時間の計算に相当」し、さらにo1-previewは、シードごとに入力127.5Mトークン、出力15Mトークンを消費します。A10の1時間あたり$1.50だと、GPUの下限だけで$2,700です。ここにo1-previewのAPI利用を足すと、1シードの実行はおよそ$5,500になります。したがって3シード×6モデルなら、追加の採点やリトライのオーバーヘッドの前の時点で、だいたい$100,000に到達します。
METRのRE-Benchは、7つの研究エンジニアリング環境それぞれを、1〜6台のH100上で8時間に上限を設けています。したがってスイートを1周するだけで、繰り返し試行、複数シード、複数エージェントを追加する前の段階でも、56〜336H100時間かかります。人間のベースラインは71件の専門家による試行があるため、暗黙の予算はさらに大きくなります。ベンチマークがエージェントと人間に同じウォールクロックの計算量を与えるため、リアルタイムの学習プロセスがコストの下限を決めます。トークン予算はもはや上限を規定しません。
ResearchGym(ICLR 2026)は、エージェントが実際のML研究を行うようにします。ACL、ICLR、ICMLの論文から選んだ5つのテストタスク(39のサブタスク)で、ACL Highlights、ICML Spotlight、ICLR Spotlight、ICLR Oralカテゴリを含みます。提案された手法は非公開(隠された状態)です。エージェントは仮説を提案し、モデルを訓練し、オリジナル著者のベースラインを上回らなければなりません。予算はきわめてタイトです:APIに$10、タスクごとに24GB未満のGPUを1台使い、合計12〜24時間。フルパス(5タスク×24時間×3シード)は、1エージェントあたりおよそ360GPU時間を消費します。
コストの見通しは、PaperBenchではさらに苛烈になります。ICML 2024のSpotlightまたはOral論文20本を、スクラッチから複製し、8,316のリーフノード基準(採点ルーブリックの木)に照らして採点します。各ロールアウトはA10 GPUで12時間使用し、論文ごとの計算はシンプルです:
- o1 IterativeAgentの各ロールアウトあたり$400のAPI費用が、論文20本分で約$8,000の評価コストになります。
- o3-miniのジャッジで、1論文あたり$66の採点がかかります。したがってフルベンチマークは$1,320です。
- o1をジャッジにすると、採点は1論文あたりおよそ$830まで押し上がります。
PaperBench Code-Devは、実行を意図的に軽くしています。その選択によりロールアウト費用は約$4,000に半減し、採点は1論文あたり$10にまで削減されます(85%低下)。OpenAIがこのバリアントを作ったのは、多くのグループがフルベンチマークを賄えないからです。
歴史的な前例はNAS-Bench-101です。その表形式の構築には、100TPU年以上に相当する学習が必要でした。もし、その一度きりの投資がなければ、NASアルゴリズムの比較は各実行あたり1〜100+GPU時間のコストになってしまい、アルゴリズムそのものよりも比較の方が高くつく状況になっていたでしょう。
ベンチマークが実際の作業に近づくほど、圧縮は難しくなります。静的な予測では大きな削減の余地が残りますが、エージェントのロールアウトでは削減の余地が少なく、ループ内(in-the-loop)の学習ではほとんどありません。
信頼性こそが高くつく部分
上に挙げたコストの多くは、統計的な力が限られた単発の測定にだけお金を使っています。複数回の実行にわたって信頼性を測定すると、静的ベンチマーク、エージェントベンチマーク、ループ内学習ベンチマークはいずれも、より高価になります。
エージェントの信頼性は、「1回の実行を証拠として扱う」ことをやめると、厳しく落ち込むことがあります。よく知られた例は、Yaoらのτ-benchで、のちにCLEAR(Mehta, 2025)で再解釈されました。そこでは、性能が単発の実行で60%から、8回実行の一貫性(consistency)で25%まで下がり得ることが示されています。Kapoorらの「AI Agents That Matter」では、シンプルなベースラインエージェントが、HumanEvalにおいて複雑なSOTAエージェント(Reflexion、LDB、LATS)を、50倍低いコストでパレート優位にしたことが分かりました。ホールドアウト分析では、17のベンチマークのうち7つにホールドアウトセットがなかったことが判明しました。残りの10のうち、適切な一般性のレベルでホールドアウトタスクを保持できていたのは5つだけだったため、結果として17のうち12は、ホールドアウト基準を全体として満たせませんでした。HALの論文では、「何もしない(do-nothing)」エージェントが、元の構成においてτ-benchの航空会社タスクの38%を通過する、と述べています。さらにHALの自身のログ分析では、TAU-benchのFew Shotスキャフォールドにデータリークがあり、そのため2025年12月に削除を余儀なくされたことが明らかになりました。
別の最近の信頼性に関する整理は、Rabanser, Kapoorらの「Towards a Science of AI Agent Reliability」から来ています。そこでは、一貫性(consistency)、頑健性(robustness)、予測可能性(predictability)、安全性(safety)にわたって計12の指標を提案しています。彼らの発見は次の通りです:「最近の能力向上は、信頼性に対しては小さな改善しかもたらしていない」。HALの内部分析は、集計された精度の背後にどれほどの脆さ(fragility)が隠れているかを示しています。SciCodeおよびCORE-Benchでは、エージェントはツール呼び出しの失敗なくして走り切ることがほぼありませんでした。AssistantBenchおよびCORE-Benchでは、環境エラーが全実行の約40%で発生しました。さらに、失敗したタスクにおいて、エージェントは最終回答で明示的なベンチマーク指示に60%以上の割合で違反しました。
セルあたりk=8回の再実行(reruns)を行う、統計的に信頼できるHAL型評価では、合計の$40Kが、およそ$320Kになります。PaperBenchの1回あたり$9,500のコストに同じ倍率をかけると、1エージェントの評価は$75Kを超え、The Wellでは、複数シードのプロトコルにより、アーキテクチャあたりのコストが約960H100時間から数千H100時間へと跳ね上がります。信頼性は、上に挙げたあらゆるコストカテゴリに対する倍率として働きます。
HALは信頼性に注力するため、新しいモデル評価を一時停止しています。業界の見出しとなる数字はいまだにノイズが多すぎ、そのノイズを減らすことには実際のお金がかかります。そして上記の金額は下限です。多くの評価者はすでに値付け(コスト)の面で予算の外に置かれてしまっています。
このことがMLという分野に意味するもの
評価コストは今や説明責任(アカウンタビリティ)の障壁になっている
学術グループ、AIセーフティ研究所、そしてジャーナリストは、最先端エージェントを独立して評価しようとすると、技術的な制約の前に予算制約にぶつかるようになりました。単一のGAIA実行だけで、年間の大学院生の出張予算を超えてしまうことがあります。LLMジャッジを含む単一のPaperBench評価は、およそ9,500ドルです。6つのモデルを3シードで比較する、いわゆる研究として公表され得る種類の調査は、15万ドルを超えます。「ベンチマークを1回実行して精度の数値を報告する」という確立した慣行は、完璧な天候のもとで1台の車をクラッシュテストするのと同程度の厳密さです。それを乗り越えるには、研究計算(研究用コンピュート)として学術システムが現時点で配分していないお金が必要になります。
コンピュートの格差は今や評価にも及んでいる
Ahmed, Wahed and Thompson(Science 2023)は、2021年には産業界のモデルがパラメータ数の点で学術のモデルより29倍大きかったこと、また2020年にはAI博士の約70%が産業界に進んでいたのに対し、2004年は21%だったことを明らかにしました。元々の「コンピュート格差」の物語は、評価をほとんど無視していました。というのも、評価は訓練の横に置くと安く見えることが多かったからです。多くのベンチマークでは、その関係が反転しています。7Bモデルをファインチューニングできるラボは、もはや、その分野が真剣に取り扱うベンチマークの費用を払えると当然に見なせなくなりました。
コストを見ないリーダーボードは浪費に報いる
リーダーボードが生の精度を報告し、コストを省略している場合、研究者は数値が上がるまで合理的にトークンを問題へ投下できます。HALの論文は、高い推論努力が、実行の大多数において実際には精度を下げていることを見いだしています。追加の推論計算は、最適化すべきだとされる指標を、確実に改善するわけではありません。パレートフロンティアは、コストに対する精度で比較を並べ替えることでこの問題を解決します。HALはそれを実装していますが、ほとんどのリーダーボードはまだ実装していません。
もし、統計的に信頼できるベンチマーク数値を、最もコストの高いエージェント的および科学的ベンチマークで生成できるのがフロンティア・ラボの計算予算だけであるなら、AIシステムを評価するという社会的なプロセスは、それらを作っているのと同じラボに集中し、外部検証は部分的、場合によっては存在しなくなります。誰かがコストを直接補助しない限り、その状態は変わりません。
ベンチマークの種類別コストの概要
| ベンチマーク | 種類 | 単一評価あたりのUSD | 「1回の評価」が意味するもの |
|---|---|---|---|
| HELM(LLMあたり、2022) | 静的LLM | $85 – $10,926(API); 540 – 4,200 GPU-hrs(オープン) | 42のシナリオを通じた1つのLLM; HELM §6 p. 43 のモデル別テーブル |
| ScienceAgentBench | エージェント的、科学 | $0.19 – $77 | 102タスクに対する1つのエージェント設定 |
| TAU-bench Airline | エージェント的 | $0.31 – $180 | 全ての航空タスクに対する1つのエージェント |
| SciCode | エージェント的、科学 | $0.12 – $625 | 338のサブ問題に対する1つのエージェント |
| CORE-Bench Hard | エージェント的、レプリケーション | $2 – $510 | 45本の論文に対する1つのエージェント |
| SWE-bench Verified Mini | エージェント的、コーディング | $4 – $1,600 | 50件のイシューに対する1つのエージェント |
| Online Mind2Web | エージェント的、Web | $5 – $1,610 | 300のWebタスクに対する1つのエージェント |
| GAIA | エージェント的、多モーダル | $7.80 – $2,829 | GAIAタスクに対する1つのエージェント |
| ResearchGym(フルパス) | ML研究、訓練 | $540 – $1,260 | 5タスク × 24h × 3シード(約360 GPU-hrs) + API |
| RE-Bench(単一パス) | ML R&D、訓練 | $140 – $840 | 7環境 × 8h × 1–6 H100 |
| The Well(アーキテクチャあたり) | SciML、訓練 | 約$2,400 | 見出しの16データセット・グリッド:5 LR × 16データセット × 12h H100 |
| MLE-Bench(1シード) | ML R&D、訓練 | 約$5,500 | 75のKaggleコンペをA10で24h + o1-preview API |
| PaperBench Code-Dev | 科学的、コードのみ | 約$4,200 | 20本の論文にまたがる1つのエージェント、実行なし |
| The Well(フルスイープ) | SciML、訓練 | 約$9,600 | 見出しの16データセット・グリッドにおける4つのアーキテクチャ |
| PaperBench(フル) | 科学的 | 約$9,500 | 20本の論文にまたがる1つのエージェント、完全プロトコル |
| HAL aggregate | 9ベンチマーク × 9モデル | 約$40,000 | 全81セル、各セルで単一シード |
すべての数値は、単一評価あたりのUSDに正規化されています。GPU計算は$2.50/H100-hour、$1.50/A10-hourに換算しています。該当する場合、APIおよび採点(グレーディング)のコストを含めています。Pythia(「事前学習を超えて評価コストが膨らむ可能性がある」)、PDEBench(アーキテクチャごとのコストは、選択した訓練プロトコルとハードウェアに依存する)、およびNAS-Bench-101の100 TPU-yearの構築コストは、単一評価あたりのUSD値にきれいに正規化できないため除外しています。
同じ評価に二度支払うのをやめよう
これらの数値が高止まりする理由の一つは、分野が同じ評価を繰り返し実行し続けていることです。フロンティア・ラボはHALのスイープ費用を払い、学術グループは部分的な再現のためにまた支払い、監査組織は自分たちが関心を持つモデルバージョンのために3回目として支払い、そしてジャーナリストはリーダーボードをチェックするために4回目として支払います。これらの実行の多くは、重複するモデルを重複するベンチマークでカバーしています。しかし、次のチームがそれを基に構築できる場所に、元になっているインスタンス単位の出力が行き着くことはほとんどありません。というのも、結果がPDFの単一の精度数値として報告されたり、モデルカードのテーブルとしてまとめられたり、足場(スキャフォールド)、プロンプト、シードを隠すリーダーボードのエントリとして掲載されたりするからです。上記のコストが大きいのは、分野が毎回“小売価格”で支払っていること、そして残りのコミュニティが(仮に望んだとしても)再利用できない成果物に対して支払っていることが一因です。
標準化されたドキュメントは、ここで利用可能な最も安価なレバーであり、信頼性(リライアビリティ)に取り組む必要がそもそもあるからこそ、信頼性のための最優先課題でもあります。もし9,500ドルのPaperBenchの展開が、共有されたスキーマで完全な採点トレースをエクスポートできるなら、同じ論文を研究する次のグループは、ベースラインを繰り返すのではなく、新しい摂動(パートurbations)に予算を使えます。複数シードのHAL実行が、軌跡ごとのツール呼び出しログを公開するなら、単一の精度数値では答えられない問いに対して、エージェントの信頼性研究が答えを出せるようになります。節約効果は累積します。高コストのベンチマークで再利用率が2倍になるだけでも、あらゆる圧縮技術を合わせたものよりも、より多くのお金がエコシステムに戻ってきます。
これが私たちをどこに連れていくか
経済性は変わりました。つい最近まで、学習は高価で、評価は安価でした。50百万ドルから1億ドルのフロンティアLLMを学習するにはまだ評価が四捨五入の誤差に見えるかもしれませんが、その四捨五入の誤差は今や、ベンチマーク1回の実行あたり数万ドル規模のコストを生み、しかも騒がしい(ノイジーな)結果を残してしまうことがよくあります。ニューラル演算子、ML研究エージェント、再現性ベンチマークでは、この比率が反転しています。信頼できる評価は、候補となるモデルの学習よりもコストが高くなることがあります。
静的評価をより安くする方法は、私たちはすでに知っています。Flash-HELM、tinyBenchmarks、Anchor Pointsがそれです。エージェント評価には部分的な修正しかありません。難易度の中間でのフィルタリングは役に立ち、パレートフロントのリーダーボードも効果がありますが、ツールキットは依然として薄いままです。学習ループ(Training-in-the-loop)の評価には一般的な圧縮手法がありません。表形式の事前計算と厳しい予算上限は、ベンチマークが測るものを狭めることでコストを下げられるだけです。信頼性(reliability)は追加の層になります。というのも、繰り返し実行によって、あらゆるプロトコルの価格が引き上がるからです。
この分野は依然として、能力セットが主な制約であるかのように語りますが、評価は信頼性こそがよりきつい制約であることを示しています。ガバナンス機関は、単発の精度とpass^kの一貫性(コンシステンシー)のギャップを測りたいはずですが、そのギャップを測るコストが最も高くつきます。静的ベンチマークの圧縮は、エージェントや学習ループ型ベンチマークには引き継げません。難易度の中間でのフィルタリングは、唯一の信頼できる代替の部分的解決策のままです。コストに鈍感な(コスト非考慮の)リーダーボードは、設計によって今や誤解を招きます。なぜなら、それは「その支出で何が得られたのか」を報告せずに、余計な支出を評価するからです。
評価には、独自の計算予算(compute budgets)、統計手法、そして失敗モードがあります。その価格は、そもそも誰が強力なシステムを評価できるかを形作っています。評価の支払いができる者が、リーダーボードを書くのです。
- Ying et al. (2019). NAS-Bench-101: Towards Reproducible Neural Architecture Search. arXiv:1902.09635.
- Liang et al. (2022). Holistic Evaluation of Language Models. arXiv:2211.09110.
- Takamoto et al. (2022). PDEBench: An Extensive Benchmark for Scientific Machine Learning. arXiv:2210.07182.
- Ahmed, Wahed and Thompson (2023). The growing influence of industry in AI research. Science 379(6635).
- Biderman et al. (2023). Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling. arXiv:2304.01373.
- IBM Research (2023). Efficient LLM Benchmarking. research.ibm.com.
- Perlitz et al. (2023). Efficient Benchmarking of Language Models. arXiv:2308.11696.
- Vivek et al. (2023). Anchor Points: Benchmarking Models with Much Fewer Examples. arXiv:2309.08638.
- Chan et al. (2024). MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering. arXiv:2410.07095.
- Chen et al. (2024). ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery. arXiv:2410.05080.
- Kapoor et al. (2024). AI Agents That Matter. arXiv:2407.01502.
- Wijk et al. (METR, 2024). RE-Bench: Evaluating Frontier AI R&D Capabilities of Language Model Agents Against Human Experts. arXiv:2411.15114.
- Ohana et al. (2024). The Well: a Large-Scale Collection of Diverse Physics Simulations for Machine Learning. arXiv:2412.00568.
- Polo et al. (2024). tinyBenchmarks: evaluating LLMs with fewer examples. arXiv:2402.14992.
- Siegel et al. (2024). CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark. arXiv:2409.11363.
- Tian et al. (2024). SciCode: A Research Coding Benchmark Curated by Scientists. arXiv:2407.13168.
- Kapoor et al. (2025). Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation. arXiv:2510.11977.
- Li et al. (2025). Adaptive Testing for LLM Evaluation: A Psychometric Alternative to Static Benchmarks. arXiv:2511.04689.
- Mehta (2025). Beyond Accuracy: A Multi-Dimensional Framework for Evaluating Enterprise Agentic AI Systems. arXiv:2511.14136.
- Starace et al. (2025). PaperBench: Evaluating AI's Ability to Replicate AI Research. arXiv:2504.01848.
- UK AISI (2025). Evidence for inference scaling in AI cyber tasks: increased evaluation budgets reveal higher success rates. aisi.gov.uk.
- Bandel et al. (2026). General Agent Evaluation. arXiv:2602.22953.
- Garikaparthi et al. (2026). ResearchGym: Evaluating Language Model Agents on Real-World AI Research. arXiv:2602.15112.
@misc{ghosh2026evalbottleneck,
author = {Ghosh, Avijit and Mai, Yifan and Channing, Georgia and Choshen, Leshem},
title = {{AI} evals are becoming the new compute bottleneck},
year = {2026},
month = apr,
howpublished = {EvalEval Coalition Blog},
url = {https://evalevalai.com/research/2026/04/29/eval-costs-bottleneck/}
}







