Kwai Summary Attention 技術レポート

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、次世代LLMにおける長文脈対応が重要である一方、標準的なソフトマックス注意機構は系列長に対して二次的に計算量が増えるため、長文脈ではコストが急速に悪化すると指摘しています。
既存手法は主に、KVキャッシュを縮小する（それでも系列長に対して1:1で線形に依存する）か、KVキャッシュに優しいアーキテクチャに置き換えるが、いずれも長文脈の有効性とのトレードオフになりがちだとしています。
著者らは、KVキャッシュの系列長依存は線形のまま維持しつつ、意味レベルで圧縮を比率kで行う「中間的な経路」を提案し、O(n/k)の計算コストを狙います。
その動機に基づき、過去の文脈を学習可能なサマリートークンに圧縮することで、長系列の学習・推論コストを削減しつつ、長距離の依存関係を解釈可能に保持するKwai Summary Attention（KSA）を提案します。
本研究は、推論、コードのエージェント的知能、レコメンドなどの用途で、メモリ/計算の削減と長距離セマンティクスの強さの両立を目指す新しい注意機構として位置づけています。