AIベンチマークは壊れている。代わりに必要なのは何か。

MIT Technology Review / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この記事は、従来のAIベンチマークが不完全だと主張しており、その理由は評価が主として「個々の人間の性能を、孤立したタスクでAIが上回るかどうか」という形で捉えられがちだからだ。
「AI vs. 人間（単一の問題）」という考え方は魅力的に見える一方で、実運用に必要な現実の能力や制約を十分に捉えられていないと説明している。
そのうえで、AIシステムが実際にどのように使われるかをより反映する、代替の評価アプローチが必要だとしている。具体的には、より広い文脈、堅牢性、そしてアプリケーション志向の成功基準などが含まれる。
最終的に、ベンチマークは、狭い性能比較ではなく、現場にあるエンドユーザーやシステムにとって「重要なもの」を測れるように再設計するか、補完するべきだと提案している。

何十年もの間、人工知能は「機械が人間よりも優れているか」という問いによって評価されてきました。チェスから高度な数学、コーディングからエッセイ作成まで、AIモデルやアプリケーションの性能は、課題を完了する個々の人間のそれと比較して試されます。この捉え方は魅力的です。明確な…孤立した問題におけるAI対人間の比較です。