浅いニューラルネットワークが、学習可能なチャネル注意機構による特徴学習で低次数の球面多項式を学習する

arXiv stat.ML / 2026/4/28

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、学習可能なチャネル注意（channel attention）を備えた過パラメータ化の2層ニューラルネットワークにより、単位球面上の低次数球面多項式を学習する問題を解析しています。
証明によりサンプル効率が改善され、十分な確率で、有限幅かつ注意付き設計のネットワークを標準的な勾配降下法（GD）で学習する場合に必要なサンプル数が n = Θ(d^{ℓ0}/ε) であることを示しています。
この結果は本質的にタイトで、非パラメトリック回帰リスクが Θ(d^{ℓ0}/n) のオーダで鋭い（sharp）一般化率を示すことで、これ以上のサンプル複雑度改善が難しいことを示唆しています。
さらに、次数が Θ(d^{ℓ0}) のカーネル（rank）に対するミニマックス最適な回帰リスク率 Θ(d^{ℓ0}/n と整合し、ネットワークの性能がミニマックス最適であると主張しています。
学習は2段階で進み、第1段階で可変なチャネル（調和次数）選択により真の次数 ℓ0 を L ≥ ℓ0 のチャネルから復元し、第2段階で選択されたチャネルを用いて第2層を通常のGDで学習します。

日経XTECH

Reddit r/MachineLearning

Dev.to

Dev.to

Dev.to