概要: ノイズのあるラベルで学習するためのほとんどの手法は、ノイズ遷移行列、クリーンなサブセット、あるいは事前学習済みの特徴抽出器といった特権的な知識を必要とします。しかし、これらのリソースは、頑健性が最も必要とされる状況では通常利用できません。私たちは、Conformal Margin Risk Minimization(CMRM)を提案します。CMRMは、ラベルノイズの下で任意の分類損失を改良する、プラグアンドプレイ型のエンベロープ(包絡)フレームワークです。これは、単一の分位数キャリブレーション済み正則化項を追加するだけで実現され、特権的な知識もトレーニングパイプラインの改修も不要です。CMRMは、観測されたラベルと競合するラベルとの間の信頼度マージン(確信の差)を測定し、バッチごとに推定される共形(conformal)の分位数によってそれを閾値処理します。これにより、高マージンのサンプルへ学習を集中させ、誤ってラベル付けされている可能性が高いものを抑制します。さらに、CMRMについて、マージン分布の緩やかな正則性のみを仮定して、任意のラベルノイズ下での学習上界(learning bound)を導出します。合成および実世界のノイズを用いた5つの基礎手法と6つのベンチマークにおいて、CMRMは一貫して精度を改善し(最大 +3.39%)、共形予測集合のサイズを減少させ(最大 -20.44%)、0%ノイズの場合には悪化しないことを示します。これは、CMRMが既存の仕組みが活用してこなかった、手法非依存の不確実性シグナルを捉えていることを意味します。
Conformal Margin Risk Minimization:ラベルノイズ下での頑健な学習のためのエンベロープ(包絡)フレームワーク
arXiv cs.LG / 2026/4/9
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- ラベルノイズ下で、ノイズ遷移行列やクリーンなサブセットといった特権情報を必要とせず、任意の分類損失を改善するプラグアンドプレイ型の「エンベロープ(包絡)型」正則化フレームワークとして、Conformal Margin Risk Minimization(CMRM)を提案する。
- CMRMは、観測されたラベルと競合するラベル間の信頼度マージンを計算し、そのうえでバッチごとに1つの量的に校正された(conformal)閾値を適用する。これにより、高マージンのサンプルを強調し、誤ってラベル付けされている可能性が高いサンプルを抑制する。
- 著者らは、マージン分布に関する穏やかな正則性仮定のみを用い、任意のラベルノイズに対するCMRMの理論的な学習上界を提示している。
- 5つのベース手法と6つのベンチマーク(合成および実環境のノイズ)にわたる実験により、一貫した精度向上(最大 +3.39%)と、より小さいconformal予測セット(最大 -20.44%)が示される。さらに、ノイズが0%の場合の性能低下は見られない。
- これらの結果は、CMRMが手法非依存の不確実性シグナル、すなわちマージンに基づくconformal校正を活用していることを示唆しており、既存の頑健性手法が十分に活かしきれていない可能性がある。




