YOCO++:KV残差接続でYOCOを強化し、効率的なLLM推論を実現
arXiv cs.CL / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、従来のKV圧縮手法よりも品質の損失を抑えつつ、より効率的なLLM推論を目指す改良版のクロスレイヤー・キー/バリュー(KV)圧縮手法であるYOCO++を提案する。
- YOCO++は、各下半分レイヤーのKVをボトム層へ接続する重み付き残差接続を追加することで、学習/推論の効率を変えずに有効なモデル容量を高め、YOCOを強化する。
- 本手法は、固定の圧縮率においてKVキャッシュ使用量を削減するという利点を維持し、圧縮と性能の間に生じがちなトレードオフに取り組むことを目的としている。
- 実験では、KVキャッシュ圧縮率50%において、クロスレイヤーKV圧縮技術の中で最先端(state-of-the-art)の結果が報告され、標準的なTransformerベースラインを上回る。
