ProEval:生成AI評価における主導的な失敗発見と効率的な性能推定

arXiv cs.LG / 2026/4/28

📰 ニュースModels & Research

要点

  • ProEvalは、生成AIの評価に伴う推論の遅さや評価者コストの高さ、モデル/ベンチマークの増加といった課題に対処するための効率的な評価フレームワークを提案しています。
  • 事前学習済みのGaussian Process(GP)を性能スコア関数のサロゲートとして用い、誤りの重大度や安全違反などの指標を不確実性つきで推定できるようにします。
  • 性能推定はベイズ積分(Bayesian quadrature)として、失敗の発見は超準位集合サンプリングとして定式化し、情報量の大きい入力を能動的に選択・合成してテストを行う意思決定戦略を開発しています。
  • 理論面では、GPベースBQ推定器が不偏かつ有界であることを証明しており、実験では既存手法よりも大幅にサンプル効率が高いことが示されています。
  • 理由推論・安全アライメント・分類ベンチマークで、Ground truthに対して1%以内の推定を達成するのに8〜65倍少ないサンプルで済み、より厳しい予算下でもより多様な失敗ケースを発見できました。