要旨: 三層ニューラルネットワークは特異学習モデルを形成することが知られており、それらのベイズ漸近挙動は学習係数、すなわち実対数正準閾値によって支配される。正則モデルおよびいくつかの特異モデルにはこの量はすでに明確化されているが、ニューラルネットワークにおける評価方法は広く適用可能なものが依然として限られている。
最近、半正則モデルの局所学習係数の公式が提案され、学習係数の上限を与える。しかしこの公式は実現パラメータ集合内の非特異点のみに適用され、特異点では用いることができない。特に、三層ニューラルネットワークについては、得られる上限が既知の学習係数の値と著しく異なるケースがあることが示されている。
本論文では、三層ニューラルネットワークにおける特異点での局所学習係数の上限公式を導出する。この式は予算制約と需要供給制約の下でのカウント規則として解釈でき、一般的な解析的活性化関数に適用可能である。特に、swish関数および多項式関数を含み、以前の結果をより広い活性化関数のクラスへ拡張する。
さらに、入力次元が1の場合、ここで得られる上限は既知の学習係数と一致し、前述の不一致を部分的に解決する。私たちの結果は、三層ニューラルネットワークの重みパラメータが学習係数に与える影響について体系的な視点を提供する。
三層ニューラルネットワークの局所学習係数の上界
arXiv cs.LG / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 著者らは、三層ニューラルネットワークの特異点における局所学習係数の上界公式を導出し、特異学習モデルのベイズ的漸近法を前進させた。
- この公式は、予算および需要と供給の制約の下でのカウント規則として機能し、swish活性化関数を含む解析的活性化関数の広いクラスに適用可能である。
- 一次元入力の場合、上界は既知の学習係数と一致し、先行研究の不一致を部分的に解消する。
- この結果は、活性化関数やアーキテクチャを横断して、ネットワークの重みパラメータが学習係数をいかに形作るかについて、体系的な視点を提供する。