SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

arXiv cs.AI / 3/27/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 提案論文は、コーディングエージェントのベンチマークが「単発で完了できるか」に偏り、長期の反復で拡張不能になっていく劣化(extension robustnessの不足)を過小評価している問題を指摘しています。
  • SlopCodeBenchは言語非依存のベンチマークで、20問・93チェックポイントの中で、エージェントが自分の既存実装を繰り返し拡張しつつ仕様が変わる状況を模倣し、内部構造を縛らず設計判断の必要性を評価できます。
  • エージェントは11モデルに対して全チェックポイントを通して完了できる例がなく、最高でもチェックポイント通過率は17.2%に留まり、品質劣化が継続的に観測されました(侵食は80%の軌跡で増加、冗長性は89.8%で増加)。
  • オープンソースPythonリポジトリ比較では、エージェント生成コードは人間コードより冗長で(平均2.2倍)構造の侵食も顕著であり、さらに反復を追うと人間は品質が平坦な一方でエージェントは劣化が進むことが示されています。
  • プロンプト介入で初期品質は改善できるものの劣化の停止には至らず、パステスト中心の評価が拡張の頑健性を測りにくいこと、現行のエージェントには反復開発に必要な設計規律が欠けることが結論づけられています。

Abstract

Software development is iterative, yet agentic coding benchmarks overwhelmingly evaluate single-shot solutions against complete specifications. Code can pass the test suite but become progressively harder to extend. Recent iterative benchmarks attempt to close this gap, but constrain the agent's design decisions too tightly to faithfully measure how code quality shapes future extensions. We introduce SlopCodeBench, a language-agnostic benchmark comprising 20 problems and 93 checkpoints, in which agents repeatedly extend their own prior solutions under evolving specifications that force architectural decisions without prescribing internal structure. We track two trajectory-level quality signals: verbosity, the fraction of redundant or duplicated code, and structural erosion, the share of complexity mass concentrated in high-complexity functions. No agent solves any problem end-to-end across 11 models; the highest checkpoint solve rate is 17.2%. Quality degrades steadily: erosion rises in 80% of trajectories and verbosity in 89.8%. Against 48 open-source Python repositories, agent code is 2.2x more verbose and markedly more eroded. Tracking 20 of those repositories over time shows that human code stays flat, while agent code deteriorates with each iteration. A prompt-intervention study shows that initial quality can be improved, but it does not halt degradation. These results demonstrate that pass-rate benchmarks systematically undermeasure extension robustness, and that current agents lack the design discipline iterative software development demands.