SWE-bench Pro完全解説 設計思想・タスク構成・失敗モード分析まで
Zenn / 4/29/2026
💬 OpinionIdeas & Deep AnalysisTools & Practical UsageModels & Research
Key Points
- SWE-bench Proの設計思想を、タスク定義や評価の観点から解きほぐし、何を“解けた”とみなすかの基準を明確化しています
- タスク構成(問題の組み立て方)を整理し、どのような種類のバグ修正・仕様遵守が含まれるかを俯瞰できるようにしています
- 失敗モード分析により、モデルがどこでつまずきやすいか(原因別の典型パターン)を分類・説明しています
- これらを通じて、SWE-bench Proを使った実験や評価・改善の進め方が理解しやすくなっています
SWE-bench Pro完全解説 設計思想・タスク構成・失敗モード分析まで
2026年2月、OpenAIはSWE-bench Verifiedのスコア報告を停止し、SWE-bench Proへの移行を推奨しました。同社の監査により、GPT-5.2、Claude Opus 4.5、Gemini 3 Flashのすべてのフロンティアモデルでトレーニングデータの汚染が確認されたためです。SWE-bench Proは、Scale AIが2025年に公開したコーディングエージェント評価ベンチマークで、従来のSWE-bench Verifiedが抱えていたデータ汚染問題に正面から取り組んだ設計...
Continue reading this article on the original site.
Read original →💡 Insights using this article
This article is featured in our daily AI news digest — key takeaways and action items at a glance.


