要旨: 大規模言語モデル(LLMs)の故障(失敗)率を厳密に推定する能力は、安全な導入のための前提条件である。しかし現状では、実務者は「LLM-as-a-Judge(LLMを裁定者として用いる)」のようなラベリング手法に代表される、潜在的に深刻なバイアスを含みうる自動注釈スキームと、高価な人手によるゴールドスタンダードとの間でトレードオフに直面することが多い。本論文では、制約付き最大尤度推定(MLE)に基づく、LLMの故障率推定のための新しく、実用的で効率的なアプローチを提案する。我々の手法は、3つの異なる信号源を統合する: (i) 少量で高品質な人手ラベル付きのキャリブレーションセット、(ii) LLM-judge による注釈の大規模コーパス、そして最も重要なのは、(iii) 記録された裁定者性能統計の既知の上界・下界に基づく、領域固有の制約から導かれる追加の側面情報である。我々は、Prediction-Powered Inference(PPI)のような最先端のベースラインと比較することで、包括的な実証研究により本アプローチを検証する。裁定者の精度、キャリブレーションセットのサイズ、LLMの故障率が異なる多様な実験条件にわたって、制約付きMLEは一貫して既存手法よりも高い精度かつ低い分散の推定をもたらす。「ブラックボックス」として自動裁定者を用いることを超え、柔軟な枠組みへと発展させることで、LLMの故障率認証に向けた、筋の通った解釈可能でスケーラブルな道筋を提供する。
制約付き最大尤度推定による頑健なLLM性能認証
arXiv cs.CL / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 人手でラベル付けされた「ゴールド」データが高コストであるため、LLMの失敗率を認証することが難しいという課題と、(LLM-as-a-Judgeのような)自動ラベルデータがバイアスを持ち得る点を扱う。
- 小規模な高品質の人手によるキャリブレーション集合、判定者(ジャッジ)による大量のアノテーション集合、さらにジャッジの性能統計が既知の範囲に収まるというドメイン固有の制約の3つを統合する、制約付き最大尤度推定(constrained MLE)フレームワークを提案する。
- 複数の実験条件(ジャッジ精度、キャリブレーションサイズ、前提となるLLMの失敗率)にわたる実験結果により、制約付きMLEは、Prediction-Powered Inference(PPI)のような従来ベースラインよりも高い精度と低い分散を達成することが示される。
- 著者らは、この手法が「ブラックボックス」的なジャッジの利用を、LLMの失敗率認証のための、より解釈可能でスケーラブルかつ原理に基づいた手順に置き換えることを強調している。




