AI Navigate

ソフトマックスの幽霊:クロスエントロピーにおける安全なステップサイズを制限する複雑な特異点

arXiv cs.LG / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、クロスエントロピー最適化がソフトマックス分割関数の複雑な特異点によって制約されることを示しており、それらの特異点が対数損失の特異点を生み出し、テイラー展開の収束半径を抑制する。
  • 二値分類の場合、rho* = sqrt(delta^2 + pi^2)/Delta_a を厳密に導出し、マルチクラスの場合には下界 rho_a = pi/Delta_a を得る。ここで Delta_a は方向性ロジット導関数の広がりを表す。
  • この境界は単一のヤコビ行列-ベクトル積で計算でき、決定境界の反転に近いサンプルや提案された方向に高度に敏感なサンプルが半径を狭め、いくつかの更新を脆弱にすることを説明している。
  • tau <= rho_a を強制する単純なコントローラーは安定性を向上させ、標準的な勾配クリッピングが機能しないような極端な学習率スパイク(最大で10,000倍)にも耐える。
  • 温度スケーリングと rho_a での正規化は開始閾値の広がりを劇的に縮小し、約0.992から約0.164へと縮小させ、ヘシアン曲率を超えた最適化の幾何学的制約を浮き彫りにしている。

概要: 最適化解析は、クロスエントロピーの訓練において、損失の局所Taylorモデルに依存して、提案されたステップが目的関数を減少させるかどうかを予測します。これらの代理は、更新方向に沿った真の損失の Taylor収束半径の内側でのみ信頼できます。その半径は、実数線の曲率だけでなく、最も近い複素特異点によって決まります。クロスエントロピーの場合、ソフトマックス分割関数 F=\sum_j \exp(z_j) は複素零点を持ちます――「softmaxの幽霊」――が、損失に対数的特異点を生じさせ、この半径を制限します。この幾何学を実用化するために、提案された更新方向に沿ったロジット線形化の下で、閉形式の表現を導出します。二値の場合、正確な半径は \rho^*=\sqrt{\delta^2+ \pi^2}/\Delta_a です。多クラスの場合、下限として \rho_a=\pi/\Delta_a を得ます。ここで \Delta_a=\max_k a_k-\min_k a_k は、方向性ロジット導関数 a_k=
abla z_k\cdot v
の広がりです。この境界の計算には1つのヤコビ行列-ベクトル積が必要で、ステップを脆弱にする要因を明らかにします。すなわち、決定の反転に近く、提案された方向に対して高い感度を持つサンプルが半径を縮めます。正規化されたステップサイズ r=\tau/\rho_a は、安全な更新と危険な更新を区別します。六つのテスト済みアーキテクチャと複数のステップ方向にわたって、r<1 の場合にはどのモデルも崩壊しませんが、r\ge 1 になると崩壊が現れます。温度スケーリングはこの機構を確認します:\rho_aで正規化することで、開始閾値の広がりを標準偏差 0.992 から 0.164 に縮小します。\tau\le\rho_a を強制するコントローラは、私たちのテストで学習率のスパイクに最大で 10{,} 000\times まで耐えますが、勾配クリッピングは依然として崩壊します。これらの結果は、ヘッシアンの曲率ではなく、Taylor収束を介して作用するクロスエントロピー最適化の幾何学的制約を明らかにします。