自己強制型の動画生成におけるKVキャッシュ量子化:33手法による経験的研究
arXiv cs.LG / 2026/3/31
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、KVキャッシュの増大が自己強制型の長いホライズンの動画生成をどのように制限するかを調査し、KVキャッシュ量子化およびキャッシュ・ポリシーのバリアントを評価して、より長いロールアウトにおけるメモリ挙動を改善することを目的とする。
- 33種類のKVキャッシュ圧縮手法と、610件のプロンプト・レベル観測をまたいで、著者らはピークVRAM、実行時間、実現された圧縮率、VBenchの品質、BF16参照の忠実度(SSIM/LPIPS/PSNR)、および終端時ドリフトをベンチマークする。
- FlowCacheに着想を得たソフト・プルーニング(soft-prune)のINT4手法が、最も実用的な運用ポイントとして特定されており、約5.42〜5.49×の圧縮を達成し、ピークVRAMを19.28GBから約11.7GBへと削減する一方で、実行時間のオーバーヘッドはわずかである。
- 最大の圧縮忠実度を狙う手法(例:PRQ_INT4、QUAROT_KV_INT4)は、許容できない実行時間またはメモリコストのため、導入判断としては不適切であることが示される。
- 本研究は、圧縮だけでは失敗することがあり得る(注意/リフレッシュ段階で、大きなBF16バッファを再構成または保持してしまう実装では、結果として改善が頭打ちになる)と結論づけ、将来のKVキャッシュ統合研究を導くための経験的ハーネス、ワークフロー、ダッシュボードを提供する。



