MIT、NVIDIA、浙江大学の研究者がTriAttentionを提案:KVキャッシュ圧縮手法で、フルアテンションと同等の品質を保ちながら2.5倍高いスループットを実現

MarkTechPost / 2026/4/12

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • MIT、NVIDIA、浙江大学の研究チームが、KVキャッシュを圧縮する手法「TriAttention」を提案し、長い推論(長鎖推論)での計算負荷を抑えることを目指した。
  • TriAttentionは、従来のフルアテンションと同等の品質を保ちつつ、推論時のスループットを2.5倍高めると報告している。
  • 数万トークンに達するような複雑な問題解決では、各トークンの保存がボトルネックになりやすいが、TriAttentionはそのKVキャッシュに焦点を当てて効率化する。
  • 長鎖推論を行うLLMの実運用において、メモリ使用量やレイテンシ、コストの改善につながり得る技術として注目される。

長鎖推論は、現代の大規模言語モデルにおいて最も計算負荷の高いタスクの1つです。DeepSeek-R1 や Qwen3 のようなモデルが複雑な数学問題を解いていくと、答えに到達するまでに数万トークンを生成することがあります。これらのトークンの1つひとつは、いわゆる KV キャッシュ […] に格納されなければなりません。

投稿 MIT、NVIDIA、浙江大学の研究者が TriAttention を提案:フルアテンションと同等の精度を実現しつつ、スループットを 2.5× 向上させる KV キャッシュ圧縮手法 は、まず MarkTechPost に掲載されました。