線形漸化式のための最適な減衰スペクトル

Abstract

線形反復モデルは線形時間での系列処理を提供しますが、多くの場合、長距離の記憶に関して最適でない性能に悩まされます。我々はこれを減衰スペクトルに帰着させます。

N

チャネルに対し、ランダム初期化では最小スペクトルギャップが

O(N^{-2})

へと潰れてしまい、その結果、超指数的ではなく、誤差が

\exp(-\Omega(N/\log N))

となります。線形間隔は潰れを回避しますが、その代わりに誤差が

\exp(-O(N/\sqrt{T}))

まで劣化し、長い文脈では実際には代数的（多項式的）に振る舞います。我々は、Position-Adaptive Spectral Tapering（PoST）を提案します。これは、2つの仕組みを組み合わせた、アーキテクチャ非依存の枠組みです。 (1)スペクトル再パラメータ化：幾何学的に等間隔な対数減衰率を構造的に強制する仕組みであり、レート

O(\exp(-cN/\log T))

でのミニマックス最適性が証明されています；および(2)位置適応スケーリング：静的スペクトルのスケール不一致（位置

t

では

N

チャネルのうち

N\log t/\log T

だけが有効になる、という不一致）を解消することが、証明可能に唯一の仕組みとして示されています。スペクトルを実際の依存範囲へと引き伸ばすことで、レートを

O(\exp(-cN/\log t))

へと鋭くします。このスケーリングは自明に（ネイティブに）分数不変性を誘導します。インパルス応答はスケールフリーとなり、チャネルが相対時間座標と絶対時間座標の間を補間します。PoSTは、オーバーヘッドなしに任意の対角線形反復へ統合できます。Mamba-2、RWKV-7、Gated DeltaNet、Gated Linear Attention、RetNetにわたって実装し、180M〜440Mスケールでの事前学習を行った結果、一貫したゼロショットの言語モデリング改善、Mamba-2における（MQARおよびNIAHの）大幅な長文脈リトリーバル獲得、そして他のアーキテクチャでも競争的、または改善された性能が示されました。コード: https://github.com/SiLifen/PoST。

線形漸化式のための最適な減衰スペクトル

要点

Abstract

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer