疎なターゲットからサンプリングされたハードラベルが、回転不変アルゴリズムを誤誘導する

arXiv stat.ML / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ノイズのないソフトターゲットを学習する際における二値ロジスティック回帰を分析する。ただし訓練ラベルは、同じ条件付き確率からサンプリングされたハードな「+1/-1」の結果として与えられる。
  • 過剰に制約された領域(n > d)では、ソフトラベルによって真のパラメータを復元できるが、著者らはハードラベルの使用が回転不変の学習手法を本質的に損なうことを示す。
  • 真の重みがs-疎である場合、回転不変アルゴリズムは理論的に(証明可能な意味で)劣っており、過剰リスクがΩ((d-1)/n)のオーダーで生じることを著者らが証明する。
  • 著者らは、回転不変でないアプローチと対比し、ロジスティック回帰の重みを因数分解する重みの再パラメータ化によって、達成可能な過剰リスクがO((s log d)/n)であることを示す。
  • 引用されている最も単純な回転不変のベースラインは、ロジスティック損失に対する勾配降下法に早期終了を用いる方法であり、提案する疎ターゲット戦略は、重みをu,vに因数分解したものに対する勾配降下法を用いる。

Abstract

機械学習の最も一般的な設定の1つはロジスティック回帰である。ニューラルネットワークを含む多くの分類モデルでは、最終的な予測は線形スコアにロジスティックリンク関数を適用することで得られる。二値ロジスティック回帰では、フィードバックはソフトラベル(蒸留のように、データの真の条件付き確率に対応する)であってもよいし、サンプルされたハードラベル(値が \pm 1 を取る)であってもよい。本稿では、特に好ましい状況でさえ生じる基本的な問題を指摘する。具体的には、形式 \sigma(\mathbf{x}^{\top}\mathbf{w}^{\star}) のノイズのないソフトターゲットを学習することが目的である場合である。過剰制約のケース(すなわち、サンプル数 n が入力次元 d を超える、つまり n>d)で、例 (\mathbf{x}_i,\sigma(\mathbf{x}_i^{\top}\mathbf{w}^{\star})) が与えられていれば、\mathbf{w}^{\star} を復元できれば十分であり、したがってベイズリスクを達成できる。しかし、例が同じ条件付き分布 \sigma(\mathbf{x}_i^{\top}\mathbf{w}^{\star}) からサンプルされたハードラベル y_i によってラベル付けされ、かつ \mathbf{w}^{\star}s-疎(s-sparse)であるときには、回転不変(rotation-invariant)なアルゴリズムが証明可能に最適ではないことを我々は示す。これらは過剰リスク Omega\!\left(\frac{d-1}{n}\right) を被る。一方で、過剰リスク O(\frac{s\log d}{n}) を達成する、単純な非回転不変アルゴリズムが存在する。最も単純な回転不変アルゴリズムは、ロジスティック損失に対する勾配降下法(早期終了付き)である。上記の上界を達成する疎ターゲット向けの、簡単な非回転不変アルゴリズムは、重み u_i,v_i に対する勾配降下法を用いる。ここで、線形重み w_iu_iv_i として再パラメータ化される。
広告