OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

GIGAZINE / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

OpenAIは、AIコーディング能力の代表的ベンチマーク（従来の測定指標）は「もはや無意味」だとする認識を示し、評価の妥当性が揺らいでいると説明した。
初期には解けなかった問題を追跡したところ、ベンチマークが示す成績が実態とズレる可能性が浮上し、むしろ問題設定の側に課題があることが分かった。
その結果、単一のベンチマークのスコアで開発生産性や実用性能を判断することのリスクが強調され、評価設計の見直しが必要になる。
コーディング用ベンチマークのあり方が、モデル開発・選定・意思決定の前提に影響しうる点が示唆された。

「SWE-bench Verified」は2024年8月にOpenAIが公開したベンチマークで、AIのプログラミング能力を測る代表的な指標として広く使われてきました。新たな分析により、SWE-bench Verifiedには2つの重大な問題があり、「もはや最先端モデルの能力を正しく測定するべきベンチマークとして適切ではない」とOpenAIが提言しています。

続きを読む...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →