深層学習におけるクロスエントロピー学習のためのレイヤ分離最適化フレームワーク

arXiv cs.LG / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、softmaxクロスエントロピー損失で学習する深層学習モデルの最適化を扱い、学習中に生じる強い非凸性という課題を緩和することを目的としています。
  • 隠れ層出力に対応する補助変数を導入し、元の難しいネストされた最適化問題を一連のより扱いやすい部分問題へ分解する「レイヤ分離」戦略を提案しています。
  • 提案するレイヤ分離損失が、元のクロスエントロピー損失の上界になることを示す理論結果を導出しています。
  • 交互最小化アルゴリズムを設計し、適切な条件下で損失関数が単調に減少することを証明しています。
  • 実験では、全結合ニューラルネットワークおよび畳み込みニューラルネットワークで最適化挙動の改善が確認され、フレームワークの有効性が裏付けられています。

Abstract

本論文では、softmax cross-entropy 損失を用いた深層学習の最適化問題を調査する。学習中に深いネットワークで遭遇する強い非凸性を緩和するために、層分離(layer separation)戦略を提案する。全結合および畳み込みニューラルネットワークを含む cross-entropy モデルに対して、隠れ層の出力に関連する補助変数を導入し、それに対応する層分離モデルを構築する。これにより、元の深く入れ子になった最適化問題を、より扱いやすい部分問題の連鎖へ分解する。さらに理論的解析も行い、新しい層分離損失が元の cross-entropy 損失に対する上界を与えることを証明する。加えて、交互最小化(alternating minimization)アルゴリズムを設計し、適切な条件のもとで、これらのアルゴリズムが損失関数の減少性を示すことを証明する。数値実験により、提案手法の有効性が検証され、特に全結合および畳み込みニューラルネットワークにおいて最適化挙動の改善が示される。