SWE-rebench リーダーボード(2026年2月):GPT-5.4、Qwen3.5、Gemini 3.1 Pro、Step-3.5-Flash など

Reddit r/LocalLLaMA / 2026/3/23

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 2026年2月のSWE-rebenchリーダーボードが更新され、最近のPRに制限した57件の新しいGitHub PRタスクに対して、標準のSWE-bench条件で評価を実施した。
  • Claude Opus 4.6 が、解決率65.3%でチャートをリードしており、pass@5の性能も堅調(約70%)で、僅差の性能優位を維持している。
  • 上位層は極めて接近しており、gpt-5.2-medium、GLM-5、gpt-5.4-medium など複数のモデルが、リーダーから数パーセント以内にまとまっている。
  • Gemini 3.1 Pro Preview と DeepSeek-V3.2 は、密集した上位グループの一角を占めている。一方で、Qwen3.5-397B や Step-3.5-Flash のようなオープンウェイト/ハイブリッド系モデルも、長いコンテキストとスケーリングによる伸びでギャップを詰め続けている。
  • MiniMax M2.5 は、費用効率の高い競争力という点で特筆すべき存在であり、運営側はリーダーボード結果やモデルのアイデアを議論するためのDiscordも立ち上げた。
SWE-rebench Leaderboard (Feb 2026): GPT-5.4, Qwen3.5, Gemini 3.1 Pro, Step-3.5-Flash and More

こんにちは。SWE-rebench リーダーボードを、57件の新しいGitHub PRタスクに対する2月の実行結果で更新しました(対象は前月に作成されたPRに限定)。セットアップは標準のSWE-benchです。モデルは実際のPRの課題を読み取り、コードを編集し、テストを実行し、全テストスイートをパスしなければなりません。

主な観察結果:

  • Claude Opus 4.6 は引き続きトップで解決率65.3%を維持しており、強いpass@5(約70%)によりペースを設定し続けています。
  • トップ層は非常に僅差です。gpt-5.2-medium(64.4%)GLM-5(62.8%)gpt-5.4-medium(62.8%)はいずれも首位から数ポイント以内に収まっています。
  • Gemini 3.1 Pro Preview(62.3%)DeepSeek-V3.2(60.9%) が、密集した上位6の最後を埋めています。
  • オープンウェイト/ハイブリッドモデルは引き続き改善しています――Qwen3.5-397B(59.9%)Step-3.5-Flash(59.6%)Qwen3-Coder-Next(54.4%) は、改良された長文脈の活用とスケーリングによってギャップを縮めています。
  • MiniMax M2.5(54.6%) は、競争力のある性能を備えた費用対効果の高い選択肢として引き続き際立っています。

全体として、2月は非常に競争が激しい最前線を示しており、複数のモデルが首位から数ポイント以内に入っています。

皆さんのご意見やフィードバックを楽しみにしています。

また、Discordを立ち上げました!
リーダーボードのチャンネルに参加して、モデルの議論、アイデアの共有、質問、問題の報告を行ってください:https://discord.gg/V8FqXQ4CgU

submitted by /u/CuriousPlatypus1881
[link] [comments]