FG$^2$-GDN:微細な制御を備えた長文脈向けゲート付きデルタネットワークの強化

arXiv cs.LG / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、デルタ則アップデートのパラメータ化を改良することでGated Delta Networksを拡張した新しい線形アテンションモデルFG$^2$-GDNを提案する。
  • 先行研究ではデルタの学習率β_tが単一スカラーだったのに対し、FG$^2$-GDNはチャネルごとのベクトルを用いて、より次元(要素)に即したきめ細かな適応を可能にする。
  • さらにFG$^2$-GDN+として、キーとバリューのスケーリングを分離し、消去(erasure)強度と書き込み(write)強度を独立に制御できるようにする。
  • 合成ベンチマークと実ベンチマークの両方で、FG$^2$-GDNおよびFG$^2$-GDN+はGDNやKDAよりも連想想起(associative recall)と長文脈理解で優れ、計算効率も同等であることが示される。
  • 総じて、本研究はデルタ則メカニズムにおける「より細かい制御」を高めることで、連想メモリと長文脈性能を強化できることを示している。

概要: 線形注意メカニズムは、推論時に線形時間計算量を提供するソフトマックス注意の有望な代替として登場してきました。Gated DeltaNet (GDN) や Kimi Delta Attention (KDA) などの最近の進展により、オンライン勾配降下更新であるデルタルールが、単純な加算更新よりも優れた連想想起を可能にすることが示されています。KDA は、粗いヘッド単位の減衰ゲートをチャネル単位の減衰へと洗練しましたが、デルタ更新における学習率 eta_t は依然としてスカラーであり、次元ごとの適応能力を制限しています。本稿では、SGD から AdaGrad や Adam のような座標ごとの適応型最適化手法への移行に類似して、スカラー eta_t をチャネルごとのベクトルに置き換える FG^2-GDN を提案します。さらに、鍵と値のスケーリングをデカップリングする FG^2-GDN+ を提案し、消去の強さと書き込みの強さを独立に制御できるようにします。合成および実世界のベンチマークに対する実験の結果、FG^2-GDN とその派生は、計算効率が同等でありつつ、GDN および KDA よりも連想想起と長い文脈の理解を改善することが示されました。