曖昧なグラウンドトゥルース下での信頼度キャリブレーション
arXiv cs.LG / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 信頼度キャリブレーションは、複数のアノテータが本質的に意見を異にする場合には破綻し得る。なぜなら従来の事後的(post-hoc)キャリブレータは、典型的には多数決の単一ラベルをターゲットとして学習されているためである。
- 著者らは、曖昧なグラウンドトゥルース下における温度スケーリング(Temperature Scaling)に構造的なバイアスがあることを特定する。具体的には、学習された温度がアノテータの不確実性を過小評価し、アノテーションのエントロピーが増えるほどミスキャリブレーションが拡大する。
- 彼らは、モデルの再学習を不要としつつ、アノテータのラベル分布全体にわたってスコアリングルールを最適化する、曖昧性に配慮した事後的キャリブレーション手法を提案する。
- アノテータの分布全体を用いるDirichlet-Softが全体として最良のキャリブレーション品質を示す一方、1つのアノテーションのみで行うMCTS Temperature Scalingは分布全体によるキャリブレーションに匹敵することができ、またLS-TSはデータ駆動の疑似ソフトターゲットを介して、投票されたラベルのみを用いてキャリブレーションを改善できる。
- 4つの複数アノテータおよび合成の、臨床的知見を反映したベンチマークに対する実験では、標準的なTemperature Scalingと比べてECE(Expected Calibration Error)が大幅に減少する。Dirichlet-Softは真のラベルECEを55〜87%低減し、LS-TSはアノテータデータなしでECEを9〜77%低減する。
広告




