概要: 大規模言語モデル(LLM)における拡張推論は、深刻なKVキャッシュのメモリボトルネックを引き起こします。主要なKVキャッシュ圧縮手法は、最近のポストRoPEクエリから得られる注意スコアを用いてKVの重要度を推定します。しかし、RoPE中はクエリが位置とともに回転するため、代表的なクエリが非常に少なくなり、上位キーの選択が不十分になって推論が不安定になります。この問題を避けるため、我々はRoPEより前の空間に着目します。そこでは、QベクトルとKベクトルが固定された非ゼロの中心の周りに強く集中しており、位置にまたがって安定していること(Q/K集中)を観察します。この集中が、クエリが特定の距離(例:最も近いキー)にあるキーへ優先的に注意を向けることを引き起こしていることを示します。さらに、この中心が三角関数の級数を通じて、どの距離が好まれるかを決定することも明らかにします。これに基づき、これらの中心を活用してキー重要度を推定するTriAttentionを提案します。三角関数の級数により、これらの中心が特徴づける距離の嗜好を用いて、位置に基づきキーにスコアを与えます。加えて、重要度推定の追加シグナルとしてQ/Kノルムも活用します。32Kトークン生成でのAIME25において、TriAttentionはFull Attentionと同等の推論精度を達成しつつ、2.5倍の高いスループット、または10.7倍のKVメモリ削減を実現します。一方、主要なベースラインは同じ効率で達成できる精度が約半分にとどまります。TriAttentionにより、OpenClawを1枚のコンシューマ向けGPUでデプロイできるようになります。Full Attentionでは長いコンテキストが原因でメモリ不足になるところを、これが可能にします。
TriAttention:三角関数KV圧縮による効率的な長文推論
arXiv cs.CL / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMの長文推論におけるKVキャッシュメモリのボトルネックに対し、KVキャッシュ圧縮とキーの重要度推定を改善することで取り組む。
- 位置情報に応じてRoPEがQ/Kを回転させるため、最近のpost-RoPE attentionスコアに依存する一般的手法は「上位キー(top-key)」の選択が不安定になり、代表性のないものになると主張する。
- TriAttentionは代わりにRoPE適用前の空間で動作し、QベクトルとKベクトルが固定の非ゼロ中心の周りに集中していることが観測される点を活用する。これにより、距離を好む安定した注意(attention)挙動が得られる。
- その集中中心から導出した三角関数系列(加えて補助信号としてQ/Kのノルム)を用いて、TriAttentionはより効果的に推論のためのキーをスコア付けし保持する。
- AIME25(32Kトークン生成)での実験では、TriAttentionはフルアテンションと同等の推論精度を維持しつつ、スループットを2.5倍向上させること、またはKVメモリを10.7倍削減することを実現する。これにより、長いコンテキストでもOOMなしで単一のコンシューマGPU上でOpenClawをデプロイ可能になる。




