曖昧なグラウンドトゥルース下での信頼度キャリブレーション

arXiv cs.LG / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

信頼度キャリブレーションは、複数のアノテータが本質的に意見を異にする場合には破綻し得る。なぜなら従来の事後的（post-hoc）キャリブレータは、典型的には多数決の単一ラベルをターゲットとして学習されているためである。
著者らは、曖昧なグラウンドトゥルース下における温度スケーリング（Temperature Scaling）に構造的なバイアスがあることを特定する。具体的には、学習された温度がアノテータの不確実性を過小評価し、アノテーションのエントロピーが増えるほどミスキャリブレーションが拡大する。
彼らは、モデルの再学習を不要としつつ、アノテータのラベル分布全体にわたってスコアリングルールを最適化する、曖昧性に配慮した事後的キャリブレーション手法を提案する。
アノテータの分布全体を用いるDirichlet-Softが全体として最良のキャリブレーション品質を示す一方、1つのアノテーションのみで行うMCTS Temperature Scalingは分布全体によるキャリブレーションに匹敵することができ、またLS-TSはデータ駆動の疑似ソフトターゲットを介して、投票されたラベルのみを用いてキャリブレーションを改善できる。
4つの複数アノテータおよび合成の、臨床的知見を反映したベンチマークに対する実験では、標準的なTemperature Scalingと比べてECE（Expected Calibration Error）が大幅に減少する。Dirichlet-Softは真のラベルECEを55〜87%低減し、LS-TSはアノテータデータなしでECEを9〜77%低減する。