線形漸化式のための最適な減衰スペクトル

arXiv cs.CL / 2026/4/10

💬 オピニオン

要点

  • 本論文は、線形再帰的系列モデルにおける長期記憶の制限が、不利な「減衰スペクトル」に起因していると主張している。すなわち、ランダムな初期化により最小のスペクトルギャップが O(N^{-2}) まで崩壊し、その結果として誤差の減衰が準指数関数的(サブ指数的)になる。

Abstract

線形反復モデルは線形時間での系列処理を提供しますが、多くの場合、長距離の記憶に関して最適でない性能に悩まされます。我々はこれを減衰スペクトルに帰着させます。Nチャネルに対し、ランダム初期化では最小スペクトルギャップがO(N^{-2})へと潰れてしまい、その結果、超指数的ではなく、誤差が \exp(-\Omega(N/\log N))となります。線形間隔は潰れを回避しますが、その代わりに誤差が \exp(-O(N/\sqrt{T}))まで劣化し、長い文脈では実際には代数的(多項式的)に振る舞います。我々は、Position-Adaptive Spectral Tapering(PoST)を提案します。これは、2つの仕組みを組み合わせた、アーキテクチャ非依存の枠組みです。 (1)スペクトル再パラメータ化:幾何学的に等間隔な対数減衰率を構造的に強制する仕組みであり、レートO(\exp(-cN/\log T))でのミニマックス最適性が証明されています;および(2)位置適応スケーリング:静的スペクトルのスケール不一致(位置tではNチャネルのうちN\log t/\log Tだけが有効になる、という不一致)を解消することが、証明可能に唯一の仕組みとして示されています。スペクトルを実際の依存範囲へと引き伸ばすことで、レートをO(\exp(-cN/\log t))へと鋭くします。このスケーリングは自明に(ネイティブに)分数不変性を誘導します。インパルス応答はスケールフリーとなり、チャネルが相対時間座標と絶対時間座標の間を補間します。PoSTは、オーバーヘッドなしに任意の対角線形反復へ統合できます。Mamba-2、RWKV-7、Gated DeltaNet、Gated Linear Attention、RetNetにわたって実装し、180M〜440Mスケールでの事前学習を行った結果、一貫したゼロショットの言語モデリング改善、Mamba-2における(MQARおよびNIAHの)大幅な長文脈リトリーバル獲得、そして他のアーキテクチャでも競争的、または改善された性能が示されました。コード: https://github.com/SiLifen/PoST。