曖昧なグラウンドトゥルース下での信頼度キャリブレーション

arXiv cs.LG / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 信頼度キャリブレーションは、複数のアノテータが本質的に意見を異にする場合には破綻し得る。なぜなら従来の事後的(post-hoc)キャリブレータは、典型的には多数決の単一ラベルをターゲットとして学習されているためである。
  • 著者らは、曖昧なグラウンドトゥルース下における温度スケーリング(Temperature Scaling)に構造的なバイアスがあることを特定する。具体的には、学習された温度がアノテータの不確実性を過小評価し、アノテーションのエントロピーが増えるほどミスキャリブレーションが拡大する。
  • 彼らは、モデルの再学習を不要としつつ、アノテータのラベル分布全体にわたってスコアリングルールを最適化する、曖昧性に配慮した事後的キャリブレーション手法を提案する。
  • アノテータの分布全体を用いるDirichlet-Softが全体として最良のキャリブレーション品質を示す一方、1つのアノテーションのみで行うMCTS Temperature Scalingは分布全体によるキャリブレーションに匹敵することができ、またLS-TSはデータ駆動の疑似ソフトターゲットを介して、投票されたラベルのみを用いてキャリブレーションを改善できる。
  • 4つの複数アノテータおよび合成の、臨床的知見を反映したベンチマークに対する実験では、標準的なTemperature Scalingと比べてECE(Expected Calibration Error)が大幅に減少する。Dirichlet-Softは真のラベルECEを55〜87%低減し、LS-TSはアノテータデータなしでECEを9〜77%低減する。
広告