Abstract
双対確率行列(doubly stochastic matrices)は残差ストリーム間での学習された混合を可能にしますが、双対確率行列全体の集合である(バーコフ多面体:Birkhoff polytope)を正確かつ効率的にパラメータ化することは、依然として未解決の課題です。既存の正確な手法はストリーム数(d)に対して階乗的にスケールする一方で、クロネッカー因子分解(Kronecker-factorized)アプローチは効率的であるものの表現力が制限されています。本研究では、一般化直交確率行列(generalized orthostochastic matrices)の理論に基づく新しい正確なパラメータ化を導入します。これは
mathcal{O}(d^3) でスケールし、計算効率の高い境界と、完全に表現力のあるバーコフ多面体の間を連続的に補間する単一のハイパーパラメータ s を明示的に持ちます。学習された動的な層間接続のための枠組みである Manifold-Constrained Hyper-Connections(mHC)を土台として、このパラメータ化を go-mHC で具体化します。本手法はクロネッカー因子分解手法と自然に組み合わさり、同程度のFLOPコストで表現力を大幅に回復します。スペクトル解析によれば、go-mHC はクロネッカー因子分解のベースラインよりもはるかに完全にバーコフ多面体を埋め尽くします。合成のストリーム混合タスクでは、go-mHC は最小の理論損失を達成しつつ、最大で 10 imes 速く収束します。提案手法は、3000万パラメータのGPTスタイル言語モデルで検証します。go-mHC の表現力、効率、そして正確性は、モデル能力の新たな次元として d をスケールするための実用的な道筋を提供します。