CAWN:自己回帰言語モデリングのための連続音響ウェーブネットワーク

arXiv cs.CL / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、トランスフォーマの注意機構を複数ヘッドの複素数領域のフェーザ(phasor)と因果的な位相蓄積に置き換える、自己回帰言語モデリング向けの完全に連続なシーケンス混合アーキテクチャ「CAWN」を提案し、O(L)スケーリングを実現する。
  • 一部の線形時間シーケンスモデルで見られる長コンテキストでの信号劣化に対処するため、CAWNは周波数依存の保持、ハード閾値によるゲーティング、短期依存のためのTemporal Syntax Cacheを備えた、デュアルゲート付きSelective Phase Resonance機構を追加する。
  • 標準的な密な射影の代わりに深さ方向(depth-wise)の調和畳み込みを用いることで空間/特徴の混合を改善し、深さ方向の状態ルーティングのためにBlock Attention Residualsも追加する。
  • 150Mパラメータのプロトタイプを、連続ストリーミングによって100Bトークンのコーパスで学習し、5Bトークンのマイルストーンで評価したところ、O(1)のチャンク化されたprefill状態の受け渡しにより、VRAMは8.72GBで厳密にプラトー化しつつ、最大2,000,000トークンにまたがるターゲット付きリトリーバルをサポートすると報告している。
  • 著者らは、Targeted Semantic Retrievalプロトコルにより、堅牢な語彙獲得や文脈の拡張に伴うノイズ抑制(デノイジング)の延長といった経験的な利点を報告している。

Abstract

現代の大規模言語モデル(LLM)は、シーケンス長に対して二次的にスケールするTransformerの自己注意に依存しています。State Space Models(SSMs)のような近年の線形時間代替は、しばしば長い文脈にわたって信号が劣化します。本稿では、完全に連続的なシーケンス混合アーキテクチャであるContinuous Acoustic Wave Network(CAWN)を導入します。離散的な行列ベースの注意の代わりに、CAWNは隠れ状態を複数ヘッドの複素領域フェーザ(phasor)へ射影し、因果的なO(L)位相蓄積(Phase Accumulation)機構によってシーケンス混合を実現します。超長文脈にわたる信号劣化を防ぐために、周波数依存の保持(Frequency-Dependent Retention)、Straight-Through Estimationによるハードしきい値ゲーティング(Hard-Threshold Gating)、短期の局所的依存を捉えるためのTemporal Syntax Cacheを組み込んだ、デュアルゲート付きのSelective Phase Resonance機構を提案します。また、標準的な密な線形射影を、最適な空間周波数混合のためのDepth-wise Harmonic Convolutionsで置き換え、さらに深さ方向の状態ルーティングのためにBlock Attention Residualsを補強します。1.5億(150M)パラメータのモデルにスケールさせたCAWNは、float32における真の複素数の位相蓄積を、ハードウェア効率のためのカスタムTritonカーネルで利用します。1000億(100-Billion)トークンのコーパス上で連続ストリーミングのループにより学習したプロトタイプは、50億(5-Billion)トークンのマイルストーンで評価されます。Targeted Semantic Retrievalプロトコルによる実証的評価により、堅牢な語彙獲得と、明示的に学習された文脈における拡張的なノイズ除去が示されます。チャンクによるプリフィル(chunked prefill)を介したO(1)の状態受け渡しを活用することで、モデルは200万(2,000,000)トークンにわたって目標とする情報を取得しつつ、ピークVRAM 8.72 GBへ厳密にプラトーし続け、実証的にO(L^2)の文脈メモリ壁を乗り越えます。