広告

go-$m$HC:一般化直交ストキャスティック行列による、マンifold制約付きハイパー・コネクションの直接パラメータ化

arXiv cs.LG / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、一般化直交ストキャスティック行列を用いてバイアラッフソ多面体(双確率行列)を厳密かつ効率的にパラメータ化する手法を提案し、階乗スケーリングを回避しつつ、表現力を完全に維持します。
  • 提案するパラメータ化は O(d^3) でスケールし、単一のハイパーパラメータ s により、効率的な境界解から完全な表現集合までを連続的に補間します。
  • このパラメータ化を Manifold-Constrained Hyper-Connections に統合したことで、go-$m$HC が得られます。さらに、Kronecker 因子分解された手法と組み合わせることで、同程度の FLOP コストで失われた表現力を大幅に回復します。
  • スペクトル解析および合成実験により、go-$m$HC は Kronecker ベースラインよりもバイアラッフソ多面体をよりよくカバーし、最小理論損失に到達し、最大 10 倍速く収束することが示されます。
  • 著者らは 30M パラメータの GPT スタイル言語モデルでこのアプローチを検証し、ストリーム次元 d を追加のキャパシティ軸として扱うことで、残差ストリームの混合能力をスケール可能にすることを主張しています。

Abstract

双対確率行列(doubly stochastic matrices)は残差ストリーム間での学習された混合を可能にしますが、双対確率行列全体の集合である(バーコフ多面体:Birkhoff polytope)を正確かつ効率的にパラメータ化することは、依然として未解決の課題です。既存の正確な手法はストリーム数(d)に対して階乗的にスケールする一方で、クロネッカー因子分解(Kronecker-factorized)アプローチは効率的であるものの表現力が制限されています。本研究では、一般化直交確率行列(generalized orthostochastic matrices)の理論に基づく新しい正確なパラメータ化を導入します。これは mathcal{O}(d^3) でスケールし、計算効率の高い境界と、完全に表現力のあるバーコフ多面体の間を連続的に補間する単一のハイパーパラメータ s を明示的に持ちます。学習された動的な層間接続のための枠組みである Manifold-Constrained Hyper-Connections(mHC)を土台として、このパラメータ化を go-mHC で具体化します。本手法はクロネッカー因子分解手法と自然に組み合わさり、同程度のFLOPコストで表現力を大幅に回復します。スペクトル解析によれば、go-mHC はクロネッカー因子分解のベースラインよりもはるかに完全にバーコフ多面体を埋め尽くします。合成のストリーム混合タスクでは、go-mHC は最小の理論損失を達成しつつ、最大で 10 imes 速く収束します。提案手法は、3000万パラメータのGPTスタイル言語モデルで検証します。go-mHC の表現力、効率、そして正確性は、モデル能力の新たな次元として d をスケールするための実用的な道筋を提供します。

広告