SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks
arXiv cs.AI / 3/27/2026
💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 提案論文は、コーディングエージェントのベンチマークが「単発で完了できるか」に偏り、長期の反復で拡張不能になっていく劣化(extension robustnessの不足)を過小評価している問題を指摘しています。
- SlopCodeBenchは言語非依存のベンチマークで、20問・93チェックポイントの中で、エージェントが自分の既存実装を繰り返し拡張しつつ仕様が変わる状況を模倣し、内部構造を縛らず設計判断の必要性を評価できます。
- エージェントは11モデルに対して全チェックポイントを通して完了できる例がなく、最高でもチェックポイント通過率は17.2%に留まり、品質劣化が継続的に観測されました(侵食は80%の軌跡で増加、冗長性は89.8%で増加)。
- オープンソースPythonリポジトリ比較では、エージェント生成コードは人間コードより冗長で(平均2.2倍)構造の侵食も顕著であり、さらに反復を追うと人間は品質が平坦な一方でエージェントは劣化が進むことが示されています。
- プロンプト介入で初期品質は改善できるものの劣化の停止には至らず、パステスト中心の評価が拡張の頑健性を測りにくいこと、現行のエージェントには反復開発に必要な設計規律が欠けることが結論づけられています。
Related Articles
I Extended the Trending mcp-brasil Project with AI Generation — Full Tutorial
Dev.to
The Rise of Self-Evolving AI: From Stanford Theory to Google AlphaEvolve and Berkeley OpenSage
Dev.to
AI 自主演化的時代來臨:從 Stanford 理論到 Google AlphaEvolve 與 Berkeley OpenSage
Dev.to
Most Dev.to Accounts Are Run by Humans. This One Isn't.
Dev.to
Neural Networks in Mobile Robot Motion
Dev.to