AsyncTLS: 非同期の二段階スパース注意による効率的な生成LLM推論

arXiv cs.CL / 2026/4/10

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 48k〜96kのコンテキスト長において、エンドツーエンドのスループット向上が1.3x〜4.7xで報告されており、長いコンテキストのデプロイにおける実用的な利点が示されている。

Abstract

LLMにおける長文コンテキスト推論は、二次的な注意(attention)の計算複雑性と、許容しがたいKVキャッシュメモリという二つの課題に直面しています。トークン単位のスパース注意は優れた精度を提供しますが、インデクシングのオーバーヘッドが高コストです。ブロック単位の手法は効率を改善しますが、精度を犠牲にします。私たちは、精度と効率のバランスを取るために、大まかな粒度でのブロック・フィルタリングと、きめ細かな粒度でのトークン選択を組み合わせた階層型スパース注意システム「AsyncTLS」を提案します。さらに、時間的局所性(temporal locality)を活用して計算とKVキャッシュ転送をオーバーラップさせる、非同期オフロード・エンジンも併せて導入します。GQAおよびMLAアーキテクチャにおいて、Qwen3とGLM-4.7-Flashで評価した結果、AsyncTLSは完全なattentionと同等の精度を達成しつつ、48k〜96kのコンテキストに対してオペレータ速度を1.2x〜10.0x向上させ、エンドツーエンドスループットを1.3x〜4.7x改善しました。