要旨: 本稿では、微分可能なパラメータ化を許す非線形多様体の要素によって関数を近似する問題を考える。代表的な例としては、微分可能な活性化関数をもつニューラルネットワークやテンソルネットワークが挙げられる。損失関数の最適化に対する自然勾配降下法(NGD)は、パラメータ空間における更新が、機能的な視点に基づいて駆動される、前処理付きの勾配降下法として捉えることができる。ニュートン法と同様の精神において、NGDの1ステップでは、ヘッセ行列の代わりに、現在の反復点における近似多様体の接空間を生成する系のグラム行列を、適切な計量に関して用いる。これは、多様体への接空間への射影勾配に従って、関数空間における局所的に最適な更新に対応する。それでも、勾配降下法および自然勾配降下法のいずれも局所的な極小に行き詰まってしまう。さらに、モデルクラスが非線形多様体である場合、または損失関数が理想的に条件付けられていない場合(たとえば、密度推定におけるKLダイバージェンスや、物理インフォームド学習における偏微分方程式の残差のノルム)、各ステップごとに自然勾配であっても非最適な方向が与えられる可能性がある。本研究では、Heavy-Ball や Nesterov のような古典的な慣性動力学的手法に対する自然な拡張を導入し、それが非線形なモデルクラスを扱う際の学習プロセスをどのように改善し得るかを示す。
モメンタム付き自然勾配降下法
arXiv cs.AI / 2026/4/20
💬 オピニオンModels & Research
要点
- 本論文は、非線形マニフォールド上での最適化を、自然勾配降下法を「純粋にパラメータ空間だけでなく機能(関数)空間の観点」から捉えることで分析する。
- NGDの1ステップはヘッセ行列の代わりに、現在の反復点での近似マニフォールドの接空間を生成する系のグラム行列(適切な計量のもと)を用いて、接空間への射影勾配により関数空間で局所的に最適な更新を行うことを示す。
- 著者らは、標準の勾配法も自然勾配降下法も局所最小値に行き詰まる可能性があり、さらにモデルクラスが非線形だったり損失が理想的に条件付けされていない場合(例:密度推定のKLダイバージェンス、物理インフォームド学習のPDE残差ノルム)には、自然勾配でも各ステップで最適でない方向になり得ると指摘する。
- そこで、Heavy-BallやNesterovのような古典的慣性法の「自然版」を提案し、非線形モデルクラスで学習プロセスを改善できることを示す。
- ニューラルネットワーク(微分可能な活性化関数を持つ場合)やテンソルネットワークのような微分可能なパラメータ化の設定を念頭に、最適化手法としての前進を位置付けている。



