幅広いニューラルネットワークにおける観測ノイズと初期化に関するガウス過程の見方

arXiv stat.ML / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、幅広いニューラルネットワークでの勾配降下を、ニューラルタンジェントカーネル（NTK-GP）を用いたガウス過程における事後平均の計算として言い換えるが、先行研究では観測ノイズをゼロとし、事前平均を限定した形で仮定している点を指摘している。
著者らは、訓練時の正則化項を導入し、それがNTK-GPの枠組み内で観測ノイズを追加することに対応することを示す。これにより、ノイズを含むデータに対するモデルの仕様適合性が改善される。
任意の事前平均に対する制約を克服するため、著者らは「シフトしたネットワーク（shifted network）」の構成を提案する。これにより、任意に望む事前平均を扱いつつ、勾配降下を単一のネットワークに対して実行することで事後平均推定を可能にする。
本手法は複数のデータセットとアーキテクチャにわたって実験的に評価され、その結果、応用上のガウス過程モデリングにおいてNTK-GP同値性を用いる際の主要な実務的障壁を取り除けることが示される。

要旨: 幅の広いニューラルネットワークにおける勾配降下法の実行は、特定の事前平均と観測ノイズがゼロである条件の下で、Neural Tangent Kernel（NTK-GP）を用いたガウス過程の事後平均を計算することと同値である。しかし、既存の定式化には2つの制約がある: (i) NTK-GPはノイズなしのターゲットを仮定しており、ノイズを含むデータに対してはモデル化の不整合（ミスペシフィケーション）を引き起こす; (ii) この同値は任意の事前平均へは拡張されず、これは適切に定式化されたモデルのために不可欠である。 (i) に対処するために、学習目的に正則化項を導入し、それがNTK-GPに観測ノイズを組み込むことに対応することを示す。 (ii) に対処するために、任意の事前平均を可能にし、エンセムブル化やカーネルの反転なしに、単一のネットワークに対する勾配降下法によって事後平均を得ることを可能にする extit{シフトされたネットワーク（shifted network）} を提案する。我々は、複数のデータセットおよびアーキテクチャにわたる実験によって結果を検証し、このアプローチが、応用におけるガウス過程モデリングでNTK-GP同値を実際に利用する際の主要な障害を取り除くことを示す。