広告

足場(スキャフォールド)の詳細がないSWE-benchスコアは無意味だ

Reddit r/LocalLLaMA / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この記事は、論文やモデル発表で評価がゼロショットなのか足場付き(スキャフォールド)なのかの情報が省略されている場合、SWE-benchの結果は意味を持たないと主張している。
  • ベース環境と足場付き環境の間の性能差が非常に大きくなり得ることを指摘しており、ハーネスの詳細がないまま報告される「ピーク」スコアは誤解を招く可能性がある。
  • 例として、MiniMax M2.7が足場付きSWE-Proの結果とベース結果を明示的に分けていることを挙げている。
  • 著者は、評価ハーネスおよび足場(スキャフォールド)の詳細を公開しない限り、スコアは再現できず、懐疑的に扱うべきだと結論づけている。

新しいモデルの発表のたびに、印象的なSWE-benchの数字で始まるものの、その結果がゼロショットなのか、あるいは足場(scaffold)付きなのかは埋もれがちです。差は非常に大きいです。MiniMax M2.7は少なくとも、SWE-Proの足場付き(56.22%)をベースから分けて示していますが、多くの論文はただピーク値を静かに報告するだけです。あなたがハーネスを開示していないなら、そのスコアは再現できません。

submitted by /u/Radiant-Exam-4665
[リンク] [コメント]

広告