Abstract
現在のほとんどの長文脈言語モデルは、局所的な相互作用と長距離の状態を扱うために、いまだ注意(attention)に依存しています。そのため、系列モデリングの代替的な分解(decomposition)を検証する余地は比較的小さいです。私たちは、局所的な注意、永続メモリ、予測的な修正、そして実行時の制御を同一ブロック内で分離するハイブリッド自己回帰アーキテクチャであるLPC-SMを提案します。また、低速メモリへの書き込みを制御するために、直交ノベルティ輸送(Orthogonal Novelty Transport: ONT)を用います。158Mパラメータのモデルを、基礎言語モデリング、数学的な継続、4096トークンの継続にまたがる3段階で評価します。mHCを除去すると、Stage-Aの最終LM損失は12.630から15.127へ上昇します。一方、適応的なスパース制御は、対応する固定比率の継続と比べてStage-Bの最終LM損失を12.137から10.787へ改善します。全経路は系列長4096でも安定しており、Stage Cは最終LM損失11.582で終了し、重要な交差エントロピーにおける遅延識別子診断を14.396から12.031へ改善します。これらの結果を合わせると、長文脈の自己回帰モデリングは、注意のみではないより広い分業の枠組みのもとで編成できることが示されます。