Transactional Attention: KV-キャッシュ保持のためのセマンティック・スポンサーシップ
arXiv cs.CL / 2026/4/14
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 既存のKV-cache圧縮手法では、Kが小さい場合(K=16、4Kコンテキストの約0.4%)に機密の資格情報トークンを保持できず、さまざまな注意/再構成/保持ゲーティング手法を試しても資格情報の回収が0%となる。
- 本論文は、主要な失敗モードとして「ドーマント(休眠)トークン」(例:資格情報、APIキー、設定値)を特定する。これらはエンコード中にほぼゼロの注意しか受けない一方で、生成の後半で必要になる。
- 「Transactional Attention(TA)」は、構造的なアンカーパターン(例:「key:」や「password:」)を用いて、隣接する値を担うトークンが排除(eviction)されるのを防ぐセマンティック・スポンサーシップ機構を提案する。
- TAはK=16で資格情報の回収を100%達成し、200回の関数呼び出し試行においても100%の精度を維持する。さらに、6つの指定されたKV-cache圧縮ベースライン(いずれもスコア0%)を上回る。
- TA-Fastは注意(attention)を使わないバリアントで、メモリオーバーヘッドを52%削減する。SDPA/FlashAttentionと互換性があり、レイテンシのオーバーヘッドは1%未満の追加にとどまり、既存の圧縮技術とは直交(orthogonal)している。




