Memory Sparse Attention は長いコンテキスト(最大 100M トークン)に対する新しいアプローチのように見える

Reddit r/LocalLLaMA / 2026/4/7

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Memory Sparse Attention(MSA)は、KVキャッシュを指すGPU常駐のスパースなインデックスを用い、システムRAMに保存された圧縮KVキャッシュへアクセスすることで、「長いコンテキストの劣化(long context rot)」問題を狙い撃ちする。
  • この手法は、追加レイヤーを含むアーキテクチャの変更と、モデルがハイブリッドメモリ構成からKVキャッシュを確実に取得できるようにするための学習を必要とする。そのため、既存モデルに単純に後付けすることはできない。
  • 本プロジェクトでは、Qwen3ベースの4Bパラメータモデルの学習を報告しており、約100Mトークンまでの結果を引用しながら、非常に長いコンテキストへの対応を主張している。
  • モデルのデプロイには、独自のモデル/推論アーキテクチャにより、カスタム推論エンジンとサービングフローが必要となる(提示されたGitHubからクローン/コンパイルする)。
Memory Sparse Attention seems to be a novel approach to long context (up to 100M tokens)

長いコンテキストのロット(劣化?)を解決するための、本当に興味深いアプローチです。基本的には、GPUのVRAM上に、圧縮されたKVキャッシュをシステムRAMに格納したものを指し示す、超高効率なKVキャッシュのインデックスを保持します。モデルがKVキャッシュを適切に取得して長いコンテキストの恩恵を実現できるようにするには、新しい層の導入と、それに対応する学習が必要で、すぐに後付けできる類のものではありません。ただ、得られる計り知れない利点に基づけば、このために時間をかける価値はありそうです。学習済みの4Bのqwen3モデルもあるのですが、その独自のアーキテクチャのため、提供(サービング)には彼ら独自の推論エンジンを使う必要があります(GitHubをクローンしてコンパイルしてください)。

https://arxiv.org/pdf/2603.23516

https://github.com/EverMind-AI/MSA

https://huggingface.co/EverMind-AI/MSA-4B

https://evermind.ai/blogs/breaking-the-100m-token-limit-msa-architecture-achieves-efficient-end-to-end-long-term-memory-for-llms

submitted by /u/ratbastid2000
[link] [comments]