平均場ニューラルネットによる連続時間オンライン学習:拡散環境における退化(レグレット)解析

arXiv cs.LG / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 論文は、未知係数を持つ拡散(diffusion)過程から生成されるデータで、連続時間のオンライン学習を行う設定を扱い、ノン・アンティシペイティブ(過去情報に基づく)に2層ニューラルネットのパラメータを連続更新します。
  • 学習ダイナミクスの平均場(mean-field)極限は、データのフィルトレーションに適応した確率的ワッサースタイン勾配フローとして表されることを示し、そこで退化(regret)を解析します。
  • 退化境界(regret bounds)は、平均場極限と有限粒子(finite-particle)系の両方について導出され、ログソボレフ不等式、Polyak–Łojasiewicz条件、Malliavin計算、そして時間一様な伝播のカオス(propagation of chaos)を用います。
  • 変位凸性(displacement convexity)が成り立つ場合は静的退化が定数で抑えられ、一般の非凸ではデータ変動、エントロピー的探索(entropic exploration)、二次正則化の影響を含む線形退化の具体式を与えます。
  • シミュレーションではオンライン手法が有利で、ネットワーク幅や正則化パラメータが性能に与える影響も示されています。

平均場ニューラルネットによる連続時間オンライン学習:拡散環境における退化(レグレット)解析 | AI Navigate