SWE-bench Pro完全解説設計思想・タスク構成・失敗モード分析まで

Zenn / 4/29/2026

💬 OpinionIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

Key Points

SWE-bench Proの設計思想を、タスク定義や評価の観点から解きほぐし、何を“解けた”とみなすかの基準を明確化しています
タスク構成（問題の組み立て方）を整理し、どのような種類のバグ修正・仕様遵守が含まれるかを俯瞰できるようにしています
失敗モード分析により、モデルがどこでつまずきやすいか（原因別の典型パターン）を分類・説明しています
これらを通じて、SWE-bench Proを使った実験や評価・改善の進め方が理解しやすくなっています

SWE-bench Pro完全解説設計思想・タスク構成・失敗モード分析まで 2026年2月、OpenAIはSWE-bench Verifiedのスコア報告を停止し、SWE-bench Proへの移行を推奨しました。同社の監査により、GPT-5.2、Claude Opus 4.5、Gemini 3 Flashのすべてのフロンティアモデルでトレーニングデータの汚染が確認されたためです。SWE-bench Proは、Scale AIが2025年に公開したコーディングエージェント評価ベンチマークで、従来のSWE-bench Verifiedが抱えていたデータ汚染問題に正面から取り組んだ設計...

Continue reading this article on the original site.

Read original →