Abstract
LLMにおける長文コンテキスト推論は、二次的な注意(attention)の計算複雑性と、許容しがたいKVキャッシュメモリという二つの課題に直面しています。トークン単位のスパース注意は優れた精度を提供しますが、インデクシングのオーバーヘッドが高コストです。ブロック単位の手法は効率を改善しますが、精度を犠牲にします。私たちは、精度と効率のバランスを取るために、大まかな粒度でのブロック・フィルタリングと、きめ細かな粒度でのトークン選択を組み合わせた階層型スパース注意システム「AsyncTLS」を提案します。さらに、時間的局所性(temporal locality)を活用して計算とKVキャッシュ転送をオーバーラップさせる、非同期オフロード・エンジンも併せて導入します。GQAおよびMLAアーキテクチャにおいて、Qwen3とGLM-4.7-Flashで評価した結果、AsyncTLSは完全なattentionと同等の精度を達成しつつ、48k〜96kのコンテキストに対してオペレータ速度を1.2x〜10.0x向上させ、エンドツーエンドスループットを1.3x〜4.7x改善しました。