長鎖推論は、現代の大規模言語モデルにおいて最も計算負荷の高いタスクの1つです。DeepSeek-R1 や Qwen3 のようなモデルが複雑な数学問題を解いていくと、答えに到達するまでに数万トークンを生成することがあります。これらのトークンの1つひとつは、いわゆる KV キャッシュ […] に格納されなければなりません。
投稿 MIT、NVIDIA、浙江大学の研究者が TriAttention を提案:フルアテンションと同等の精度を実現しつつ、スループットを 2.5× 向上させる KV キャッシュ圧縮手法 は、まず MarkTechPost に掲載されました。