疎な注意(スパース・アテンション)と階層型メモリを統合し、スケーラブルな長文コンテキストLLM提供を実現する

arXiv cs.LG / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 長文コンテキストLLMの提供では、拡大し続けるKVキャッシュを参照する注意計算のコストがボトルネックになり、動的スパース注意や階層型KVストレージ(CPU+GPU)による救済が期待される一方で、粒度の不一致やGPU–CPU間の取り出し効率の悪さにより、システム全体の効果が相殺されがちです。
  • 本論文では、SPINという推論フレームワークを提案し、階層型KVストレージと実行パイプラインを協調設計することで、疎性のメリットをエンドツーエンドで維持することを狙います。
  • SPINは、ページベースの共有KVサブストレート上で異なる疎性粒度を統一的にマッピングする「統一パーティション抽象」、リクエストごとにHBM予算を動的に調整しPCIe往復を減らす「ローカリティ対応KVキャッシュ管理」、さらにアクティブなワーキングセットに合わせてサイズを決める「二段階階層メタデータ」を用います。
  • 評価はvLLM上で3つの代表的なスパース注意アルゴリズムに基づいて行われ、元のスパース実装と比べてエンドツーエンドスループットが1.66〜5.66倍、TTFTが7〜9分の1、TPOTが最大58%低減することが示されています。