LongFlow: Reasoning M のための効率的な KV キャッシュ圧縮
arXiv cs.LG / 2026/3/13
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- LongFlow は、長い出力を伴う推論モデルの注意時におけるメモリ消費と帯域幅圧力を低減するための KV キャッシュ圧縮手法を導入します。
- 現在のクエリから導出される効率的な重要度推定指標を用い、オーバーヘッドを最小化し、追加の補助ストレージを必要としません。
- FlashAttention、重要度推定、トークン排除を1つの最適化演算子に統合するカスタムカーネルが、システムレベルの効率をさらに高めます。
- 実験では、約80% の KV キャッシュ圧縮と最大 11.8 倍のスループット向上を達成し、モデル精度への影響は最小限です。
- 従来の KV キャッシュ最適化は長い入力・短い出力向けに設計されており、長い出力推論には効果が薄いという制限を対象としています。
最近の推論モデル、OpenAI-o1 や DeepSeek-R1 は、数学的推論やコード生成を含む複雑なタスクで高い性能を示している。しかし、この性能向上には出力シーケンスが著しく長くなるという代償が伴い、デプロイコストが大幅に増加する。特に長い出力は大規模な KV キャッシュを必要とし、注意計算の際に高いメモリ消費と深刻な帯域幅の圧力をもたらす。既存の KV キャッシュ最適化手法の多くは、長い入力・短い出力のシナリオを想定して設計されており、長い出力設定の推論モデルには効果的でない。さらに従来の研究における重要度推定は計算コストが高く、長時間の生成中に連続して再評価する必要がある場合には実用的ではなくなる。これらの課題に対処するため、我々は LongFlow を提案する。これは現在のクエリのみを用いて、注意計算の中間結果から導出される効率的な重要度推定指標を持つ KV キャッシュ圧縮手法である。この設計は計算オーバーヘッドをほとんど生じさせず、補助ストレージを必要としない。さらに、FlashAttention、重要度推定、トークン排除を1つの最適化演算子に融合するカスタムカーネルを開発し、システムレベルの効率を改善する。実験の結果、LongFlow は最大で 11.8 倍のスループット向上を、約80% の KV キャッシュ圧縮とともに達成し、モデル精度への影響は最小限であることを示している。
関連記事
EU AI Act適合性のために11,529台のMCPサーバをスキャンしました
Dev.to
テックキャリアに4年間も費やしている
Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
[P] allToall アーキテクチャを用いたデータ並列で 3 台の Mac Minis M4 上で Llama3.2-1B-Instruct の推論! | smolcluster
Reddit r/MachineLearning

NVIDIA V100 32GB が Qwen Coder 30B A3B Q5 で約115トークン/秒を達成
Reddit r/LocalLLaMA