確認:SWE Benchは「benchmaxxed」ベンチマークになった

Reddit r/LocalLLaMA / 2026/4/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この記事は、OpenAIの関連投稿へのリンクを示し、SWE-bench-verifiedは評価に使われなくなると述べている(公平性の観点から実質的に破綻しているため)。
  • 議論では、SWE Benchが「benchmaxxed」な状態になったと捉えられ、モデルや参加者がベンチマークへの過度な最適化によって汎化ではなく“当てにいく”状態を示唆している。
  • ベンチマークの信頼性問題は、SWE Benchに基づく結果の有用性を損ない得ると指摘している。
  • 全体として、時間の経過とともにベンチマークの悪用(ゲーミング)に耐える評価手法の重要性を強調している。