位置づけ:AI評価の科学には項目レベルのベンチマークデータが必要

arXiv cs.AI / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、今日のAI評価手法が、ベンチマーク設計上の不備や整合性の弱い指標などを含む体系的妥当性の失敗にしばしば見舞われていると主張する。
  • より厳密な「AI評価の科学」を構築するには、細かな診断と原理に基づくベンチマーク妥当性検証を可能にするために、項目レベルのベンチマークデータの収集が必要だという主張を提示する。
  • 著者らは、計算機科学における評価実務と心理測定学を結びつけることで、評価パラダイムを俯瞰し、項目レベルのエビデンスが根本的な問題をどのように明らかにし得るかを示す。
  • コミュニティによるエビデンス中心かつ項目レベルのAI評価ワークフローの採用を支えるために、成長しつつあるリポジトリであるOpenEvalを導入する。

要旨: AI評価は、高リスク領域において生成AIシステムを導入するための主要な根拠となってきました。しかし、現在の評価パラダイムはしばしば、体系的な妥当性の失敗を示します。これらの問題は、根拠のない設計上の選択からミスアラインされた指標に至るまで多岐にわたり、妥当性の根拠を収集し、きめ細かな診断分析を行うための原理に基づく枠組みがない限り、解決は困難です。本ポジションペーパーでは、AIベンチマークの項目(アイテム)レベルデータが、AI評価の厳密な科学を確立するために不可欠であると主張します。項目レベルの分析は、きめ細かな診断を可能にし、ベンチマークを原理に基づいて妥当化することを可能にします。私たちは、現在の妥当性の失敗を解剖し、計算機科学および心理測定学にまたがる評価パラダイムを見直すことで、この主張を裏づけます。項目特性と潜在構成概念の例示的な分析を通じて、項目レベルデータがもたらす独自の洞察を示します。コミュニティ全体での採用を促進するために、私たちはOpenEvalを導入します。これは、エビデンス・センタードAI評価を支えることを目的とした、項目レベルベンチマークデータの拡大中のリポジトリです。