
Googleの調査では、テスト例ごとに一般的に割り当てられる3〜5人の人間の評価者では、信頼できるAIベンチマークにはしばしば不十分であり、注釈予算をどう分けるかは、その予算そのものと同じくらい重要だとしています。
この記事 AIベンチマークは人間が意見を食い違わせることを体系的に無視していることが判明、Googleの調査 は The Decoder に最初に掲載されました。
THE DECODER / 2026/4/5

Googleの調査では、テスト例ごとに一般的に割り当てられる3〜5人の人間の評価者では、信頼できるAIベンチマークにはしばしば不十分であり、注釈予算をどう分けるかは、その予算そのものと同じくらい重要だとしています。
この記事 AIベンチマークは人間が意見を食い違わせることを体系的に無視していることが判明、Googleの調査 は The Decoder に最初に掲載されました。