事前条件付きDeltaNet:線形漸化式のための曲率を考慮したシーケンスモデリング

arXiv cs.LG / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、ソフトマックス注意の長文コンテキストにおける計算制約を緩和することを目的に、「Preconditioned DeltaNet(事前条件付きDeltaNet)」を提案し、曲率を考慮したデルタルール系の再帰モデルを扱います。
  • 研究では、recurrences(再帰)が test-time regression(TTR)の観点で、キーからバリューへの線形写像を学習するオンライン最小二乗更新として機能すると捉え、従来のデルタルール再帰が最適化時の曲率を無視していた点を明確にします。
  • 著者らは、理論的に「正確に事前条件を与えた場合」において線形アテンションとデルタルールの等価性を導出し、実装面では実用的な対角近似による事前条件付けを行います。
  • その理論を踏まえて DeltaNet、GDN、KDA の事前条件付きバリアントを構築し、計算をスケールさせるための効率的なチャンク単位の並列アルゴリズムも提示します。
  • 実験では、事前条件付きデルタルール再帰が、合成リコールのベンチマークおよび 340M・1B パラメータ規模の言語モデリングで一貫した性能向上を示したと報告されています。

Abstract

ソフトマックス注意の増大する長文コンテキストにおける計算上の制約に対処するため、いくつかの劣二乗(subquadratic)な再帰演算子が開発されてきました。本研究では、Mamba-2、DeltaNet、Gated DeltaNet(GDN)、Kimi Delta Attention(KDA)といったモデルを含めます。再帰の空間が広がるにつれて、それらを分類するための並行した研究の流れが生まれました。その有力な見方の1つが、テスト時回帰(test-time regression: TTR)フレームワークです。これは、再帰を、キーから値への線形写像を学習するオンライン最小二乗更新として解釈します。既存のデルタ則(delta-rule)に基づく再帰は、この目的に対する一次近似として捉えることができますが、特に最適化中における最小二乗損失の曲率を無視しています。本研究では、この点を解決するために、これらの再帰に対して前処理(preconditioning)を導入します。オンライン最小二乗の理論から出発し、ちょうど前処理された場合において、線形注意とデルタ則の間の同値性を導出します。次に、この理論を実践に落とし込むために、対角近似を提案します。これにより、デルタネット、GDN、KDAの前処理付きバリアントを導入できるようになり、さらにそれらを計算するための効率的なチャンク単位の並列アルゴリズムも併せて提供します。実験的に、提案する前処理付きデルタ則の再帰が、合成想起ベンチマークおよび340Mと1Bスケールの言語モデリングの双方において、一貫した性能向上をもたらすことを確認します。