SWE-bench Pro完全解説 設計思想・タスク構成・失敗モード分析まで
Zenn / 2026/4/29
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- SWE-bench Proの設計思想を、タスク定義や評価の観点から解きほぐし、何を“解けた”とみなすかの基準を明確化しています
- タスク構成(問題の組み立て方)を整理し、どのような種類のバグ修正・仕様遵守が含まれるかを俯瞰できるようにしています
- 失敗モード分析により、モデルがどこでつまずきやすいか(原因別の典型パターン)を分類・説明しています
- これらを通じて、SWE-bench Proを使った実験や評価・改善の進め方が理解しやすくなっています
SWE-bench Pro完全解説 設計思想・タスク構成・失敗モード分析まで
2026年2月、OpenAIはSWE-bench Verifiedのスコア報告を停止し、SWE-bench Proへの移行を推奨しました。同社の監査により、GPT-5.2、Claude Opus 4.5、Gemini 3 Flashのすべてのフロンティアモデルでトレーニングデータの汚染が確認されたためです。SWE-bench Proは、Scale AIが2025年に公開したコーディングエージェント評価ベンチマークで、従来のSWE-bench Verifiedが抱えていたデータ汚染問題に正面から取り組んだ設計...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



