SlopCodeBench: 長期の反復タスクにおいてコーディングエージェントがどのように劣化していくかをベンチマークする

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 提案論文は、コーディングエージェントのベンチマークが「単発で完了できるか」に偏り、長期の反復で拡張不能になっていく劣化(extension robustnessの不足)を過小評価している問題を指摘しています。
  • SlopCodeBenchは言語非依存のベンチマークで、20問・93チェックポイントの中で、エージェントが自分の既存実装を繰り返し拡張しつつ仕様が変わる状況を模倣し、内部構造を縛らず設計判断の必要性を評価できます。
  • エージェントは11モデルに対して全チェックポイントを通して完了できる例がなく、最高でもチェックポイント通過率は17.2%に留まり、品質劣化が継続的に観測されました(侵食は80%の軌跡で増加、冗長性は89.8%で増加)。
  • オープンソースPythonリポジトリ比較では、エージェント生成コードは人間コードより冗長で(平均2.2倍)構造の侵食も顕著であり、さらに反復を追うと人間は品質が平坦な一方でエージェントは劣化が進むことが示されています。
  • プロンプト介入で初期品質は改善できるものの劣化の停止には至らず、パステスト中心の評価が拡張の頑健性を測りにくいこと、現行のエージェントには反復開発に必要な設計規律が欠けることが結論づけられています。

Abstract

ソフトウェア開発は反復的である一方、エージェント的なコーディングベンチマークの多くは、単発の解法を完全な仕様に対して評価しています。コードはテストスイートを通過できても、拡張を進めるほど次第に難しくなることがあります。近年の反復ベンチマークは、このギャップを埋めようとしていますが、エージェントの設計判断をあまりにも厳密に制約するため、コード品質が将来の拡張にどう影響するかを忠実に測定できていません。私たちは、言語に依存しないベンチマークであるSlopCodeBenchを導入します。これは20の問題と93のチェックポイントから成り、エージェントは、内部構造を指示することなくアーキテクチャ上の判断を強いるように設計された、変化する仕様のもとで、自身の先行する解法を繰り返し拡張します。追跡するのは、軌跡(トラジェクトリ)レベルの2つの品質指標です。冗長性(verbosity)は、冗長または重複したコードの割合です。構造的侵食(structural erosion)は、複雑性の質量が高複雑度関数に集中している割合です。いずれのエージェントも、11モデルすべてにわたって問題をエンドツーエンドで解けたものはありません。最高のチェックポイント解法率は17.2%です。品質は着実に低下します。侵食は80%の軌跡で上昇し、冗長性は89.8%で上昇します。48のオープンソースPythonリポジトリに対して、エージェントのコードは2.2倍冗長で、かつ明確に侵食されています。そのうち20のリポジトリを時間経過で追跡すると、人間のコードは平坦なままですが、エージェントのコードは反復のたびに悪化していきます。プロンプトへの介入(prompt-intervention)研究では、初期品質を改善できることは示されましたが、劣化を止めることはできませんでした。これらの結果は、パス率ベンチマークが拡張の頑健性を体系的に過小評価しており、現在のエージェントには、反復的なソフトウェア開発が要求する設計規律が欠けていることを示しています。