Abstract
現代の大規模言語モデル(LLM)は、シーケンス長に対して二次的にスケールするTransformerの自己注意に依存しています。State Space Models(SSMs)のような近年の線形時間代替は、しばしば長い文脈にわたって信号が劣化します。本稿では、完全に連続的なシーケンス混合アーキテクチャであるContinuous Acoustic Wave Network(CAWN)を導入します。離散的な行列ベースの注意の代わりに、CAWNは隠れ状態を複数ヘッドの複素領域フェーザ(phasor)へ射影し、因果的なO(L)位相蓄積(Phase Accumulation)機構によってシーケンス混合を実現します。超長文脈にわたる信号劣化を防ぐために、周波数依存の保持(Frequency-Dependent Retention)、Straight-Through Estimationによるハードしきい値ゲーティング(Hard-Threshold Gating)、短期の局所的依存を捉えるためのTemporal Syntax Cacheを組み込んだ、デュアルゲート付きのSelective Phase Resonance機構を提案します。また、標準的な密な線形射影を、最適な空間周波数混合のためのDepth-wise Harmonic Convolutionsで置き換え、さらに深さ方向の状態ルーティングのためにBlock Attention Residualsを補強します。1.5億(150M)パラメータのモデルにスケールさせたCAWNは、float32における真の複素数の位相蓄積を、ハードウェア効率のためのカスタムTritonカーネルで利用します。1000億(100-Billion)トークンのコーパス上で連続ストリーミングのループにより学習したプロトタイプは、50億(5-Billion)トークンのマイルストーンで評価されます。Targeted Semantic Retrievalプロトコルによる実証的評価により、堅牢な語彙獲得と、明示的に学習された文脈における拡張的なノイズ除去が示されます。チャンクによるプリフィル(chunked prefill)を介したO(1)の状態受け渡しを活用することで、モデルは200万(2,000,000)トークンにわたって目標とする情報を取得しつつ、ピークVRAM 8.72 GBへ厳密にプラトーし続け、実証的にO(L^2)の文脈メモリ壁を乗り越えます。