Continuous-time Online Learning via Mean-Field Neural Networks: Regret Analysis in Diffusion Environments

arXiv cs.LG / 4/14/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 論文は、未知係数を持つ拡散(diffusion)過程から生成されるデータで、連続時間のオンライン学習を行う設定を扱い、ノン・アンティシペイティブ(過去情報に基づく)に2層ニューラルネットのパラメータを連続更新します。
  • 学習ダイナミクスの平均場(mean-field)極限は、データのフィルトレーションに適応した確率的ワッサースタイン勾配フローとして表されることを示し、そこで退化(regret)を解析します。
  • 退化境界(regret bounds)は、平均場極限と有限粒子(finite-particle)系の両方について導出され、ログソボレフ不等式、Polyak–Łojasiewicz条件、Malliavin計算、そして時間一様な伝播のカオス(propagation of chaos)を用います。
  • 変位凸性(displacement convexity)が成り立つ場合は静的退化が定数で抑えられ、一般の非凸ではデータ変動、エントロピー的探索(entropic exploration)、二次正則化の影響を含む線形退化の具体式を与えます。
  • シミュレーションではオンライン手法が有利で、ネットワーク幅や正則化パラメータが性能に与える影響も示されています。

Abstract

We study continuous-time online learning where data are generated by a diffusion process with unknown coefficients. The learner employs a two-layer neural network, continuously updating its parameters in a non-anticipative manner. The mean-field limit of the learning dynamics corresponds to a stochastic Wasserstein gradient flow adapted to the data filtration. We establish regret bounds for both the mean-field limit and finite-particle system. Our analysis leverages the logarithmic Sobolev inequality, Polyak-Lojasiewicz condition, Malliavin calculus, and uniform-in-time propagation of chaos. Under displacement convexity, we obtain a constant static regret bound. In the general non-convex setting, we derive explicit linear regret bounds characterizing the effects of data variation, entropic exploration, and quadratic regularization. Finally, our simulations demonstrate the outperformance of the online approach and the impact of network width and regularization parameters.