同値性の幻想：KVキャッシュ付き自己回帰推論におけるFP16系統的発散

arXiv cs.AI / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、標準的なFP16環境では、自己回帰トランスフォーマのKVキャッシュ推論がキャッシュ無しの計算と数値的に同値ではないことを示しており、その原因は浮動小数点の累積順序の違いにあるとしています。
3つのオープンウェイトモデル（LLaMA-2-7B、Mistral-7B-v0.3、Gemma-2-2B）で検証した結果、グリーディ推論を含む全てのデコーディング戦略で決定論的に100%のトークン発散が観測され、サンプリングの偶然が原因ではないことが示されました。
FP32の制御実験では発散が8桁減少し、トークン反転が消失し、フリップ率は0.0%にまで低下したため、FP16の非結合性が唯一の因果要因であると確認されています。
層ごとのドリフト解析とアクティベーション・パッチングにより、発散がどのように伝播するかが明らかになり、因果変数は状態を持つKVキャッシュであると特定されています。
著者らは、FP16のKVキャッシュ推論は再計算と根本的に非同値であり、現代のLLM推論における数値的不安定性を理解するための機械論的枠組みを提示すると結論づけています。

要旨: KVキャッシングは、自己回帰型トランスフォーマー推論における広く普及した最適化であり、長らくキャッシュなし計算と数値的に同等であると考えられてきました。しかし、この仮定は標準的なFP16精度では成り立ちません。キャッシュONとキャッシュOFFの実行パスでは、異なる浮動小数点の加算順序が用いられ、FP16の非結合性（non-associativity）により、デコードされるトークン系列に決定論的な発散が生じます。GSM8Kで評価した3つのオープンウェイトモデル（LLaMA-2-7B、Mistral-7B-v0.3、Gemma-2-2B）において、貪欲デコードを含むすべてのサンプリング戦略で100\%のトークン発散率を観測しました。これは、サンプリングの偶然性が原因でないことを意味します。さらに、9条件中8条件でキャッシュONのほうが高い精度を示し、その精度差は、発散の方向がランダムではなく体系的であることを示す指標となります。制御されたFP32による反証（falsification）は発散を8桁（8 orders of magnitude）減少させ、トークンの反転をなくし、反転率を正確に0.0\%まで低下させました。これにより、FP16の非結合性が唯一の因果的要因であることが確認されます。層ごとのドリフト計測（layer-wise drift profiling）では、構造的に予測可能な伝播パターンが明らかになります。Grouped-Query Attentionを使用するモデルでは最初の層で急激な発散が生じる一方、Gemmaはより大きいヘッド次元とスライディングウィンドウ注意（sliding window attention）によって、すべての層にわたって一様な蓄積（accumulation）を示します。最後に、残差ストリーム全体に対するアクティベーションパッチング（activation patching）ではキャッシュなしの軌跡を回復できず、因果変数がステートフルなKVキャッシュに局在することが示されます。これらの知見は、FP16のKVキャッシュ推論が再計算（recomputation）と根本的に同値ではないことを確立し、現代のLLM推論システムにおける数値的不安定性を理解するための機構的（mechanistic）な枠組みを提供します。

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

Qiita

同値性の幻想：KVキャッシュ付き自己回帰推論におけるFP16系統的発散

要点

関連記事

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

ローカルLLM入門ガイド（Mac - Appleシリコン）

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer