| 投稿者 /u/rm-rf-rm [リンク] [コメント] |
確認:SWE Benchは「benchmaxxed」ベンチマークになった
Reddit r/LocalLLaMA / 2026/4/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この記事は、OpenAIの関連投稿へのリンクを示し、SWE-bench-verifiedは評価に使われなくなると述べている(公平性の観点から実質的に破綻しているため)。
- 議論では、SWE Benchが「benchmaxxed」な状態になったと捉えられ、モデルや参加者がベンチマークへの過度な最適化によって汎化ではなく“当てにいく”状態を示唆している。
- ベンチマークの信頼性問題は、SWE Benchに基づく結果の有用性を損ない得ると指摘している。
- 全体として、時間の経過とともにベンチマークの悪用(ゲーミング)に耐える評価手法の重要性を強調している。




