概要: 損失関数は監視付き分類において中心的な役割を果たします。Cross-entropy(CE)は広く用いられていますが、平均絶対誤差(MAE)損失は頑健性を提供する一方で最適化が難しいことがあります。CEとMAEの損失の間を補間する一般化クロスエントロピー(GCE)は、最近、最適化の難易度と頑健性とのトレードオフを提供するために導入されました。既存のGCEの定式化は、分類マージン上の非凸最適化を生じさせ、アンダーフィットに陥りやすく、複雑なデータセットでの性能が低下します。本論文では、分類マージン上の凸最適化をもたらす一般化クロスエントロピー(MGCE)のミニマックス定式化を提案します。さらに、MGCEが分類誤差の上限を提供できることを示します。提案された二レベルの凸最適化は、暗黙微分によって計算される確率的勾配を用いて効率的に実装できます。ベンチマークデータセットを用いて、MGCEは高い精度、より速い収束、およびラベルノイズが存在する場合に特に優れた較正を達成することを示します。
ミニマックス一般化クロスエントロピー
arXiv stat.ML / 2026/3/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、分類マージン上での最適化を凸にするミニマックス形式の一般化クロスエントロピー(MGCE)を提案し、従来のGCE法における非凸性に対処する。
- MGCEは分類誤差に対する上限を提供し、暗黙微分を用いて実装可能な二階層凸最適化フレームワークによって最適化される。
- ベンチマークデータセットでの実験は、MGCEがより高い精度、より速い収束、そしてより良いキャリブレーションを達成することを示し、特にラベルノイズが存在する場合に顕著である。
- 本研究はMGCEを分類器訓練の頑健な代替手段として位置づけ、実践的なモデル訓練ワークフローに影響を与える可能性を示唆している。