SlopCodeBench: 長期の反復タスクにおいてコーディングエージェントがどのように劣化していくかをベンチマークする
arXiv cs.AI / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 提案論文は、コーディングエージェントのベンチマークが「単発で完了できるか」に偏り、長期の反復で拡張不能になっていく劣化(extension robustnessの不足)を過小評価している問題を指摘しています。
- SlopCodeBenchは言語非依存のベンチマークで、20問・93チェックポイントの中で、エージェントが自分の既存実装を繰り返し拡張しつつ仕様が変わる状況を模倣し、内部構造を縛らず設計判断の必要性を評価できます。
- エージェントは11モデルに対して全チェックポイントを通して完了できる例がなく、最高でもチェックポイント通過率は17.2%に留まり、品質劣化が継続的に観測されました(侵食は80%の軌跡で増加、冗長性は89.8%で増加)。
- オープンソースPythonリポジトリ比較では、エージェント生成コードは人間コードより冗長で(平均2.2倍)構造の侵食も顕著であり、さらに反復を追うと人間は品質が平坦な一方でエージェントは劣化が進むことが示されています。
- プロンプト介入で初期品質は改善できるものの劣化の停止には至らず、パステスト中心の評価が拡張の頑健性を測りにくいこと、現行のエージェントには反復開発に必要な設計規律が欠けることが結論づけられています。



