FG$^2$-GDN：微細な制御を備えた長文脈向けゲート付きデルタネットワークの強化

arXiv cs.LG / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、デルタ則アップデートのパラメータ化を改良することでGated Delta Networksを拡張した新しい線形アテンションモデルFG$^2$-GDNを提案する。
先行研究ではデルタの学習率β_tが単一スカラーだったのに対し、FG$^2$-GDNはチャネルごとのベクトルを用いて、より次元（要素）に即したきめ細かな適応を可能にする。
さらにFG$^2$-GDN+として、キーとバリューのスケーリングを分離し、消去（erasure）強度と書き込み（write）強度を独立に制御できるようにする。
合成ベンチマークと実ベンチマークの両方で、FG$^2$-GDNおよびFG$^2$-GDN+はGDNやKDAよりも連想想起（associative recall）と長文脈理解で優れ、計算効率も同等であることが示される。
総じて、本研究はデルタ則メカニズムにおける「より細かい制御」を高めることで、連想メモリと長文脈性能を強化できることを示している。

概要: 線形注意メカニズムは、推論時に線形時間計算量を提供するソフトマックス注意の有望な代替として登場してきました。Gated DeltaNet (GDN) や Kimi Delta Attention (KDA) などの最近の進展により、オンライン勾配降下更新であるデルタルールが、単純な加算更新よりも優れた連想想起を可能にすることが示されています。KDA は、粗いヘッド単位の減衰ゲートをチャネル単位の減衰へと洗練しましたが、デルタ更新における学習率 $eta_t$ は依然としてスカラーであり、次元ごとの適応能力を制限しています。本稿では、SGD から AdaGrad や Adam のような座標ごとの適応型最適化手法への移行に類似して、スカラー $eta_t$ をチャネルごとのベクトルに置き換える FG $^2$ -GDN を提案します。さらに、鍵と値のスケーリングをデカップリングする FG $^2$ -GDN+ を提案し、消去の強さと書き込みの強さを独立に制御できるようにします。合成および実世界のベンチマークに対する実験の結果、FG $^2$ -GDN とその派生は、計算効率が同等でありつつ、GDN および KDA よりも連想想起と長い文脈の理解を改善することが示されました。

視覚におけるオートエンコーダと表現学習

Dev.to

Google Stitch 2.0：数秒でシニア級UIを生成できるが、編集はまだ壊れる

Dev.to

AIエージェントにおけるコンテキスト肥大（Context Bloat）

Dev.to

プロダクトを開発するAI開発チームをオープンソース化しました

Dev.to

Qwen 3.6 35B A3B と Qwen 3.5 122B A10B の比較：自分では後者の方が大きく優れる

Reddit r/LocalLLaMA

FG$^2$-GDN：微細な制御を備えた長文脈向けゲート付きデルタネットワークの強化

要点

関連記事

視覚におけるオートエンコーダと表現学習

Google Stitch 2.0：数秒でシニア級UIを生成できるが、編集はまだ壊れる

AIエージェントにおけるコンテキスト肥大（Context Bloat）

プロダクトを開発するAI開発チームをオープンソース化しました

Qwen 3.6 35B A3B と Qwen 3.5 122B A10B の比較：自分では後者の方が大きく優れる

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer