Pre-activation ResNet向けの集団カーネルEFT(Collective Kernel EFT)

arXiv cs.LG / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、Gのみを用いる閉包階層に基づき、プリアクティベーションResNetに対する集団カーネル有効場の理論(EFT)を構築し、カーネルが層をまたいでどのように進化するかをモデル化します。
  • 残差の増分が条件付きガウス分布であることを正確に活用して、著者らはGに関する厳密な確率的再帰関係を導出し、その上で系統的なガウス近似により、連続時間の深さを扱うODE系(平均カーネルK0、カーネル共分散V4、そして1/n補正項)を得ます。
  • 平均カーネルK0のODEは深さ全体で精度が保たれる一方、共分散方程式V4の残差は有限時間でO(1)の誤差へと蓄積し、主因はGのみの輸送項に対する近似誤差であるとされています。
  • 1/nのEFT補正K1,EFTは、必要なソース閉包が破綻するために失敗し、初期時点ですでに体系的な不一致が観測されます。
  • これらの結果は、状態空間をGのみへ縮約することの限界を示しており、sigma-kernelを含める形で状態空間を拡張することを提案しています。

概要: 有限幅の深層ニューラルネットワークでは、経験的カーネル G が層をまたいで確率的に変化する。本研究では、G のみ閉包階層に基づく事前活性化 ResNet のための、集団カーネル有効場理論(EFT)を開発し、その有限妥当性の窓を診断する。残差増分の厳密な条件付きガウス性を活用して、G に対する厳密な確率的再帰式を導出する。ガウス近似を体系的に適用することで、平均カーネル K_0、カーネル共分散 V_4、および 1/n の平均補正 K_{1,
mathrm{EFT}}
のための、連続深さ ODE 系を導く。ここで K_{1,
mathrm{EFT}}
は、図式的にワンループのタッドポール補正として現れる。数値的には、K_0 はあらゆる深さで正確性を維持する。しかし V_4 方程式の残差は、有限時間で O(1) の誤差として蓄積され、主に G のみ輸送項における近似誤差によって駆動される。さらに K_{1,
mathrm{EFT}}
は、ソース閉包の破綻により失敗する。これは初期化の時点ですでに体系的な不一致として現れる。これらの結果は、G のみの状態空間縮約の限界を示しており、シグマ・カーネルを取り込むために状態空間を拡張することを示唆する。