要旨: 残差接続は現代の深層ニューラルネットワークの中心であり、深さを超えた安定した最適化と情報の流れを可能にします。本研究では SCORE (Skip-Connection ODE Recurrent Embedding) を提案します。SCORE は古典的な層の積み重ねに対する離散的な再帰的代替です。複数の独立した層を組み合わせる代わりに、SCORE は ODE(常微分方程式)に着想を得た収縮更新 ht+1 = (1 - dt) * ht + dt * F(ht) を使用して1つの共有ニューラルブロックを反復適用します。この定式化は、深さを反復ごとに洗練させる深さ-反復の洗練プロセスとして解釈できます。ステップサイズ dt は安定性と更新の大きさを明示的に制御します。連続的な Neural ODE アプローチとは異なり、SCORE は固定数の離散反復と標準のバックプロパゲーションを使用し、ODEソルバやアジョイント法を必要としません。我々は SCORE を、グラフニューラルネットワーク(ESOL 分子溶解性)、多層パーセプトロン、そして Transformer ベースの言語モデル(nanoGPT)に対して評価します。アーキテクチャを横断して、SCORE は一般に収束速度を改善し、訓練を加速します。SCORE は共有重みを通じてパラメータ数を削減します。実務的には、単純なオイラー法による積分が計算コストと性能の最良のトレードオフを提供しますが、高次の積分法は増加する計算コストに対して限られた利得をもたらします。これらの結果は、収縮的残差更新を伴う制御された再帰深さが、深層ニューラルネットワークにおける古典的な積み重ねに対する軽量で効果的な代替手段を提供することを示唆します。
SCORE: 層の積み重ねを収縮的再帰深さで置換する
arXiv cs.LG / 2026/3/12
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- SCOREは、ODEに着想を得た収縮的更新 ht+1 = (1 - dt) * ht + dt * F(ht) を1つの共有ブロックを繰り返し適用することで、複数の独立した層を用意することなく深さを反復ごとに洗練させる離散的な再帰深さを導入します。
- ニューラルODEとは異なり、SCOREは固定数の離散ステップと標準のバックプロパゲーションを使用し、解法器やアジョイント法を回避します。
- この手法は共有ウェイトを通じてパラメータ数を削減し、グラフニューラルネットワーク、マルチレイヤーパーセプトロン、nanoGPT のような Transformer ベースの言語モデルなどで収束速度の改善を示します。
- 経験的には、単純なオイラー法による積分が計算コストと性能の最良のトレードオフを提供し、より高次の積分法は追加コストに対して限られた利得をもたらします。
- 結果は、収縮的残差更新を用いた制御された再帰深さが、さまざまなアーキテクチャに対して古典的な積み重ねに代わる軽量で効果的な手法であることを示唆します。

