| こんにちは。SWE-rebench リーダーボードを、57件の新しいGitHub PRタスクに対する2月の実行結果で更新しました(対象は前月に作成されたPRに限定)。セットアップは標準のSWE-benchです。モデルは実際のPRの課題を読み取り、コードを編集し、テストを実行し、全テストスイートをパスしなければなりません。 主な観察結果:
全体として、2月は非常に競争が激しい最前線を示しており、複数のモデルが首位から数ポイント以内に入っています。 皆さんのご意見やフィードバックを楽しみにしています。 また、Discordを立ち上げました! [link] [comments] |
SWE-rebench リーダーボード(2026年2月):GPT-5.4、Qwen3.5、Gemini 3.1 Pro、Step-3.5-Flash など
Reddit r/LocalLLaMA / 2026/3/23
📰 ニュースSignals & Early TrendsModels & Research
要点
- 2026年2月のSWE-rebenchリーダーボードが更新され、最近のPRに制限した57件の新しいGitHub PRタスクに対して、標準のSWE-bench条件で評価を実施した。
- Claude Opus 4.6 が、解決率65.3%でチャートをリードしており、pass@5の性能も堅調(約70%)で、僅差の性能優位を維持している。
- 上位層は極めて接近しており、gpt-5.2-medium、GLM-5、gpt-5.4-medium など複数のモデルが、リーダーから数パーセント以内にまとまっている。
- Gemini 3.1 Pro Preview と DeepSeek-V3.2 は、密集した上位グループの一角を占めている。一方で、Qwen3.5-397B や Step-3.5-Flash のようなオープンウェイト/ハイブリッド系モデルも、長いコンテキストとスケーリングによる伸びでギャップを詰め続けている。
- MiniMax M2.5 は、費用効率の高い競争力という点で特筆すべき存在であり、運営側はリーダーボード結果やモデルのアイデアを議論するためのDiscordも立ち上げた。




