Transactional Attention: KV-キャッシュ保持のためのセマンティック・スポンサーシップ

arXiv cs.CL / 2026/4/14

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

既存のKV-cache圧縮手法では、Kが小さい場合（K=16、4Kコンテキストの約0.4%）に機密の資格情報トークンを保持できず、さまざまな注意/再構成/保持ゲーティング手法を試しても資格情報の回収が0%となる。
本論文は、主要な失敗モードとして「ドーマント（休眠）トークン」（例：資格情報、APIキー、設定値）を特定する。これらはエンコード中にほぼゼロの注意しか受けない一方で、生成の後半で必要になる。
「Transactional Attention（TA）」は、構造的なアンカーパターン（例：「key:」や「password:」）を用いて、隣接する値を担うトークンが排除（eviction）されるのを防ぐセマンティック・スポンサーシップ機構を提案する。
TAはK=16で資格情報の回収を100%達成し、200回の関数呼び出し試行においても100%の精度を維持する。さらに、6つの指定されたKV-cache圧縮ベースライン（いずれもスコア0%）を上回る。
TA-Fastは注意（attention）を使わないバリアントで、メモリオーバーヘッドを52%削減する。SDPA/FlashAttentionと互換性があり、レイテンシのオーバーヘッドは1%未満の追加にとどまり、既存の圧縮技術とは直交（orthogonal）している。

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

日経XTECH

日経XTECH

日経XTECH

日経XTECH

日経XTECH