生成モデル出力の(不)正確性評価のためのEスコア
arXiv stat.ML / 2026/4/2
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、生成モデル(特にLLM)出力の正確性を評価することには、広く用いられているにもかかわらず、強固で原理的なメカニズムが欠けていると主張する。
- それは、p値に依存する従来の適合予測(conformal-prediction)アプローチを批判する。許容誤差(tolerance)の事後的な選択は、pハッキングを可能にし、理論的保証を損なうおそれがあるためである。
- 著者らは、適合予測の枠組みをe値(e-values)で用いて、誤りの大きさを定量化しつつ誤り保証を保持するeスコアを生成することを提案する。
- eスコアは、データ依存的な方法でユーザが許容レベルを設定できるように設計されており、さらに事後的な誤り概念として「サイズ歪み」に対する追加の上界も提供する。
- 実験により、この手法が、数学的な事実性や制約・性質の充足といった異なる正確性の定義に対して機能することが示される。
