優れたターミナルエージェントのベンチマーク課題とは何か:対立的・困難・判読可能な評価設計のためのガイドライン

arXiv cs.AI / 2026/5/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ターミナルエージェントのベンチマークは、LLMのコーディングおよびシステム管理能力を測る主要な指標になっているが、検証ロジックの対立的な見直しが不十分なまま課題が急いで出されがちだ。
  • 本論文は、ベンチマーク課題はエージェントが成功することを狙うプロンプトのように書くのではなく、対立的・困難・判読可能(legible)であるように設計すべきだと主張する。
  • AIが生成した指示の抜け道、過度に強い仕様、事務的な負荷、隠れた前提知識を要求するオラクル的な解、誤った観点を検証するテスト、報酬を不正に最適化できる環境など、よくある失敗パターンを整理している。
  • 人気のターミナルエージェント向けベンチマーク課題の15%以上が報酬ハッキング可能(reward-hackable)であるという経験的証拠も示され、重要な難しさは環境依存よりも概念的なものだと示唆する。
  • ガイドラインは、ベンチマークの保守者や貢献者、さらにベンチマークスコアを根拠として用いる研究者に向けて、評価の信頼性と解釈可能性を高めることを目的としている。

要旨: ターミナルエージェントのベンチマークは、大規模言語モデルのコーディング能力およびシステム管理能力を測定するための主要な指標になってきました。評価環境の市場が拡大するにつれて、検証ロジックに対する徹底した敵対的レビューがないまま、タスクを迅速に出荷することへの圧力も高まっています。本論文は、Terminal Benchのために1年以上にわたってタスクの提供とレビューに携わった経験から得た、良いベンチマークタスクの書き方に関するガイドラインです。多くの人はベンチマークタスクを、プロンプトを書くのと同じやり方で書きますが、それはすべきではありません。プロンプトはエージェントが成功するように設計されています。一方、ベンチマークは、それができるかどうかを明らかにするために設計されます。我々は、良いタスクとは敵対的で、難しく、かつ読み取れる(legible)べきだと主張します。そして、「AIが生成した指示」「過度に指示的な仕様」「事務作業の煩雑さ」「隠れた知識を前提とするオラクル解法」「誤ったものを検証してしまうテスト」「報酬を不正に攻略できる環境」といった、よくある失敗モードの大きな範囲は、タスク作成をプロンプト作成として扱うことから生じる予測可能な帰結であると論じます。これらの失敗モードを整理し、真の難しさは環境ではなく概念的なものであることを主張し、さらに、人気のターミナルエージェント向けベンチマークにおける15%以上のタスクが報酬を不正に攻略できることを示す、最近の経験的証拠についても議論します。本稿が、ベンチマークの保守担当者、タスクの提供者、そしてベンチマークスコアを証拠として用いる研究者にとって有用な参考となることを願っています。