AsyncTLS: 非同期の二段階スパース注意による効率的な生成LLM推論

arXiv cs.CL / 2026/4/10

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

48k〜96kのコンテキスト長において、エンドツーエンドのスループット向上が1.3x〜4.7xで報告されており、長いコンテキストのデプロイにおける実用的な利点が示されている。

Abstract

LLMにおける長文コンテキスト推論は、二次的な注意（attention）の計算複雑性と、許容しがたいKVキャッシュメモリという二つの課題に直面しています。トークン単位のスパース注意は優れた精度を提供しますが、インデクシングのオーバーヘッドが高コストです。ブロック単位の手法は効率を改善しますが、精度を犠牲にします。私たちは、精度と効率のバランスを取るために、大まかな粒度でのブロック・フィルタリングと、きめ細かな粒度でのトークン選択を組み合わせた階層型スパース注意システム「AsyncTLS」を提案します。さらに、時間的局所性（temporal locality）を活用して計算とKVキャッシュ転送をオーバーラップさせる、非同期オフロード・エンジンも併せて導入します。GQAおよびMLAアーキテクチャにおいて、Qwen3とGLM-4.7-Flashで評価した結果、AsyncTLSは完全なattentionと同等の精度を達成しつつ、48k〜96kのコンテキストに対してオペレータ速度を1.2x〜10.0x向上させ、エンドツーエンドスループットを1.3x〜4.7x改善しました。

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

GLM 5.1がオープンモデルのコードアリーナランキング首位に

Reddit r/LocalLLaMA

AIは、あなたに嘘をつくのが本当に上手になったと言えるのか？

Reddit r/artificial

AIが何千ものゼロデイを発見：それでもあなたのファイアウォールは2014年からのパターンマッチングのまま

Dev.to

AsyncTLS: 非同期の二段階スパース注意による効率的な生成LLM推論

要点

Abstract

関連記事

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

GLM 5.1がオープンモデルのコードアリーナランキング首位に

AIは、あなたに嘘をつくのが本当に上手になったと言えるのか？

AIが何千ものゼロデイを発見：それでもあなたのファイアウォールは2014年からのパターンマッチングのまま

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer