ECEを超えて:校正されたサイズ比、リスク評価、信頼度重み付き指標

arXiv cs.LG / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本稿は、一般に用いられるExpected Calibration Error(ECE)が、過度な過信リスクが任意に大きい状況でも小さく見えてしまう可能性を指摘している。
  • 1が完全な校正に対応する新しい指標Calibrated Size Ratio(CSR)を提案し、そこから過信の統計的根拠を定量化するリスク確率P_riskを導出する。
  • 著者らは、過信リスクの評価には「識別力(正しい予測と誤った予測を信頼度が実際に分離できているか)」の測定を補完として加えるべきだと主張している。
  • confidence-weighted accuracy(cwA)を提案し、信頼度の重み付けが標準的な分類指標全般へ拡張できることを示し、さらにconfidence-weighted AUC(cwAUC)が古典的なAUCでは失われる校正情報を捉えることを証明している。
  • 合成分布およびポストホック校正の有無を含む15の実データセットで検証し、CSRが試験した条件すべてでほぼ完璧な感度・特異度を示した。