ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation

arXiv cs.LG / 4/28/2026

📰 NewsModels & Research

Key Points

  • ProEvalは、生成AIの評価に伴う推論の遅さや評価者コストの高さ、モデル/ベンチマーク増加という課題に対処するための、効率的な評価フレームワークを提案しています。
  • 事前学習済みのGaussian Process(GP)を性能スコア関数のサロゲートとして用い、誤りの重大度や安全違反などの指標を不確実性つきで推定できるようにします。
  • 性能推定はベイズ積分(Bayesian quadrature)として、失敗の発見は超準位集合サンプリングとして定式化し、情報量の大きい入力を能動的に選択・合成してテストを行う意思決定戦略を開発しています。
  • 理論面では、GPベースBQ推定器が「不偏」かつ「有界」であることを証明しており、実験では既存手法よりも大幅にサンプル効率が高いことが示されています。
  • 理由推論・安全アライメント・分類ベンチマークで、Ground truthに対して1%以内の推定を達成するのに8〜65倍少ないサンプルで済み、より厳しい予算下でも多様な失敗ケースをより多く発見できました。

Abstract

Evaluating generative AI models is increasingly resource-intensive due to slow inference, expensive raters, and a rapidly growing landscape of models and benchmarks. We propose ProEval, a proactive evaluation framework that leverages transfer learning to efficiently estimate performance and identify failure cases. ProEval employs pre-trained Gaussian Processes (GPs) as surrogates for the performance score function, mapping model inputs to metrics such as the severity of errors or safety violations. By framing performance estimation as Bayesian quadrature (BQ) and failure discovery as superlevel set sampling, we develop uncertainty-aware decision strategies that actively select or synthesize highly informative inputs for testing. Theoretically, we prove that our pre-trained GP-based BQ estimator is unbiased and bounded. Empirically, extensive experiments on reasoning, safety alignment, and classification benchmarks demonstrate that ProEval is significantly more efficient than competitive baselines. It requires 8-65x fewer samples to achieve estimates within 1% of the ground truth, while simultaneously revealing more diverse failure cases under a stricter evaluation budget.

ProEval: Proactive Failure Discovery and Efficient Performance Estimation for Generative AI Evaluation | AI Navigate