$ exttt{YC-Bench}$:長期計画と一貫した実行のためのAIエージェントベンチマーク

arXiv cs.CL / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この記事では、シミュレートされた1年間のスタートアップ期間(数百ターン・部分観測あり)において、LLMエージェントが計画し、かつ一貫して実行する能力を評価するオープンソースのベンチマーク「YC-Bench」を紹介する。
  • エージェントは、意思決定の複利的な影響を扱う必要がある。たとえば従業員の管理、タスクの契約選択、対立的な(敵対的な)クライアントや増え続ける給与計算の下でも収益性を維持することなどである。
  • 12のモデル(商用・オープンソース)の評価では、初期資本$200Kを一貫して上回るのは3モデルのみであり、Claude Opus 4.6が最終資金で約$1.27Mと最も高い結果を示した。
  • コンテキストの打ち切りがあるにもかかわらず、スクラッチパッドの使用は成功の最も強い予測因子として特定される。一方で失敗は、敵対的クライアントの検出(約47%の破産の要因)によって引き起こされることが多い。
  • 分析では、フロンティアモデルでも長期ホライゾンにわたる一貫性には依然として課題があることが示され、過剰な並列化などの特徴的な失敗パターンが見られ、対処すべき重要な能力ギャップが明らかになっている。

概要: LLMエージェントがますます複雑なタスクに取り組むにつれ、重要な問いは、長い地平線にわたって戦略的な一貫性を維持できるかどうかです。具体的には、不確実性の下での計画、遅延したフィードバックからの学習、そして初期のミスが増幅していく状況での適応が挙げられます。私たちは、 exttt{YC-Bench}を導入します。これは、エージェントに対して1年という地平線(数百ターンに相当)でシミュレーション上のスタートアップを運営させることで、これらの能力を評価するベンチマークです。エージェントは、従業員を管理し、タスク契約を選択し、部分観測環境の下で収益性を維持しなければなりません。この環境では、敵対的なクライアントと、増大する給与負担が、判断の誤りによる帰結を増幅させます。私たちは、12のモデル(独自モデルとオープンソースの両方)を、それぞれ3つのシードで評価します。初期資本の200Kを一貫して上回るのは3モデルのみであり、Claude Opus 4.6が最も高い平均最終資金である1.27 Mを達成し、次いでGLM-5が11 imes低い推論コストで1.21 Mを達成しています。文脈の切り詰めをまたいで情報を保持する唯一の仕組みであるスクラッチパッドの使用が、成功の最も強い予測因子です。また、敵対的クライアントの検出は主要な失敗モードであり、破産の47\%を占めます。分析の結果、最先端モデルであっても、過度な並列化のような異なる失敗モードを通じて失敗しており、長期地平線での性能における能力ギャップが示されています。 exttt{YC-Bench}$はオープンソースであり、再現可能で、設定可能です。