Transactional Attention: KV-キャッシュ保持のためのセマンティック・スポンサーシップ

arXiv cs.CL / 2026/4/14

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 既存のKV-cache圧縮手法では、Kが小さい場合(K=16、4Kコンテキストの約0.4%)に機密の資格情報トークンを保持できず、さまざまな注意/再構成/保持ゲーティング手法を試しても資格情報の回収が0%となる。
  • 本論文は、主要な失敗モードとして「ドーマント(休眠)トークン」(例:資格情報、APIキー、設定値)を特定する。これらはエンコード中にほぼゼロの注意しか受けない一方で、生成の後半で必要になる。
  • 「Transactional Attention(TA)」は、構造的なアンカーパターン(例:「key:」や「password:」)を用いて、隣接する値を担うトークンが排除(eviction)されるのを防ぐセマンティック・スポンサーシップ機構を提案する。
  • TAはK=16で資格情報の回収を100%達成し、200回の関数呼び出し試行においても100%の精度を維持する。さらに、6つの指定されたKV-cache圧縮ベースライン(いずれもスコア0%)を上回る。
  • TA-Fastは注意(attention)を使わないバリアントで、メモリオーバーヘッドを52%削減する。SDPA/FlashAttentionと互換性があり、レイテンシのオーバーヘッドは1%未満の追加にとどまり、既存の圧縮技術とは直交(orthogonal)している。