
「SWE-bench Verified」は2024年8月にOpenAIが公開したベンチマークで、AIのプログラミング能力を測る代表的な指標として広く使われてきました。新たな分析により、SWE-bench Verifiedには2つの重大な問題があり、「もはや最先端モデルの能力を正しく測定するべきベンチマークとして適切ではない」とOpenAIが提言しています。
GIGAZINE / 4/29/2026

Continue reading this article on the original site.
Read original →
Dev.to

Dev.to
Dev.to

Dev.to

Dev.to