事前条件付きDeltaNet:線形漸化式のための曲率を考慮したシーケンスモデリング
arXiv cs.LG / 2026/4/24
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、ソフトマックス注意の長文コンテキストにおける計算制約を緩和することを目的に、「Preconditioned DeltaNet(事前条件付きDeltaNet)」を提案し、曲率を考慮したデルタルール系の再帰モデルを扱います。
- 研究では、recurrences(再帰)が test-time regression(TTR)の観点で、キーからバリューへの線形写像を学習するオンライン最小二乗更新として機能すると捉え、従来のデルタルール再帰が最適化時の曲率を無視していた点を明確にします。
- 著者らは、理論的に「正確に事前条件を与えた場合」において線形アテンションとデルタルールの等価性を導出し、実装面では実用的な対角近似による事前条件付けを行います。
- その理論を踏まえて DeltaNet、GDN、KDA の事前条件付きバリアントを構築し、計算をスケールさせるための効率的なチャンク単位の並列アルゴリズムも提示します。
- 実験では、事前条件付きデルタルール再帰が、合成リコールのベンチマークおよび 340M・1B パラメータ規模の言語モデリングで一貫した性能向上を示したと報告されています。


