MLPは自分自身のスキップ接続を吸収できるのか?

arXiv cs.LG / 2026/4/28

📰 ニュースModels & Research

要点

  • 本論文は、単一隠れ層MLPにおけるスキップ接続を、同じ幅の残差なしMLPへ数学的に「吸収」して同等の関数を表せるかを解析し、関数クラスの同一性を中心に扱う。
  • スキップ分岐が可逆な線形写像である場合、問題は恒等スキップの場合へ帰着できることを示し、Hyper-Connectionsのような設定も含めて整理する。
  • k ≠ 1のように次数が1ではない同次活性(例:ReLU²、ReGLU)では吸収が無条件に不可能であり、SwiGLUやGeGLUのようなゲート付きで原点近傍で微分可能な活性でも線形化によって同様に不可能となる。
  • これらの不可能性は任意の深さにも拡張され、該当活性を用いたL個の残差ブロックの合成は、同じ幅のL個の残差なしブロックのどの合成でも再現できない。
  • ゲートなしのReLUとGELUでは状況がより複雑で、吸収が成り立つのは特定の重み条件が満たされる場合に限られ(しかも非ジェネリック)、従ってスキップ接続ありと残差なしは一般には別の関数クラスになると示唆されるが、深い合成でその性質が維持されるかは未解決。

要旨: 本研究では、単一隠れ層のMLP(多層パーセプトロン)まわりのスキップ接続が、同一幅の残差(residual)のないMLPに吸収できるのはいつかを調べる。まず、スキップ分岐が可逆な線形写像である任意のアーキテクチャ(Hyper-Connectionsおよび、そのマニフォールド制約付きバリアントを含む)では、この問題は恒等スキップの場合へと帰着することを示す。次数 k
eq 1
の同次(homogeneous)活性関数、例えばReLU^2やReGLUでは、次数に関する議論により、吸収は無条件に不可能である。原点で微分可能で g(0)=0 を満たすゲート付き活性関数(SwiGLUやGeGLUを含む)では、線形化(linearization)の議論によって同様の結論が得られる。これらの不可能性結果は任意の深さへ拡張される。すなわち、そのような活性関数を用いたL個の残差ブロックの合成は、同一幅の残差なしブロックL個の任意の合成によっては再現できない。ゲートなしのReLUおよびGELUでは状況がより豊かになる。一般的な重み行列に対して、吸収は単一ブロックの段階では、そのときに限り成立する:少なくともd個の要素をもつ添字集合 S が存在し、W_{mathrm{down}}[:,S]\,W_{mathrm{up}}[S,:] = -I_d が成り立つ場合である。この条件は非汎用的(非ジェネリック)であり、連続な重み分布の下では確率1で失敗する。したがって、同一幅のスキップ接続付きMLPと残差なしMLPは、一般には互いに交わらない(異なる)関数族を表す。この非交わりが、ReLUまたはGELUブロックの深い合成に対しても持続するかどうかは未解決である。

MLPは自分自身のスキップ接続を吸収できるのか? | AI Navigate