ソフトラベルとキャリブレーションに基づく最適分類誤り率の実用的推定

arXiv stat.ML / 2026/4/17

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、二値分類において最適（ベイズ）分類誤り率を推定する方法を扱い、ソフトラベルを用いた先行研究を発展させています。
ハードラベルに基づく推定器のバイアスを解析し、クラス条件付き分布の分離の良さに応じてバイアスが従来よりも速く減衰し得ることを示します。
ソフトラベルが破損している場合の推定を検討し、キャリブレーション済みのソフトラベルを使うだけでは精度保証にならず、推定が大きく不正確になり得ることを明らかにします。
統計的に整合な推定器を実現するために、より弱い仮定の下で等張（isotonic）キャリブレーションを用いる手法を提案します。
合成データおよび実データでの実験により妥当性と理論が支持され、実装用コードも公開されています。

要旨: 機械学習システムの性能は近年大きく改善されていますが、根本的な問いである「私たちはモデルをどの程度まで改善できるのか」には、比較的ほとんど注意が払われていません。本論文は、実用的であり理論的にも裏付けられた二値分類の設定において、この問いに答えるための手段を提示します。私たちは、ベイズ誤り（最適な誤り率）を推定するためにソフトラベルを利用する先行研究を、2つの重要な点で拡張します。第一に、元の研究で議論されたハードラベルに基づく推定量のバイアスの性質について、理論的に検討します。その結果、バイアスの減衰率は、2つのクラス条件付き分布がどれほどよく分離されているかに適応的であり、インスタンスあたりのハードラベル数が増えるにつれて、先行結果が示唆していたよりも大幅に速く減衰し得ることを明らかにします。第二に、より困難な問題設定である、ソフトラベルが破損している場合での推定に取り組みます。汚れていないソフトラベルの代わりに、キャリブレーション済みのソフトラベルを使いたくなるかもしれません。しかし私たちは、キャリブレーションの保証だけでは不十分であり、たとえソフトラベルが完全にキャリブレーションされていても、実質的に不正確な推定が生じ得ることを示します。さらに、先行研究の仮定よりも弱い仮定のもとで、等張（isotonic）キャリブレーションが統計的に整合な推定量を提供できることを示します。提案手法はインスタンスフリー、すなわち入力インスタンスへのアクセスを仮定しません。この性質により、プライバシー上の理由でインスタンスが利用できない実務的な場面にも導入できます。合成データセットおよび実世界データセットを用いた実験により、提案手法と理論の妥当性を示します。コードは https://github.com/RyotaUshio/bayes-error-estimation にあります。