YOCO++:KV残差接続でYOCOを強化し、効率的なLLM推論を実現

arXiv cs.CL / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、従来のKV圧縮手法よりも品質の損失を抑えつつ、より効率的なLLM推論を目指す改良版のクロスレイヤー・キー/バリュー(KV)圧縮手法であるYOCO++を提案する。
  • YOCO++は、各下半分レイヤーのKVをボトム層へ接続する重み付き残差接続を追加することで、学習/推論の効率を変えずに有効なモデル容量を高め、YOCOを強化する。
  • 本手法は、固定の圧縮率においてKVキャッシュ使用量を削減するという利点を維持し、圧縮と性能の間に生じがちなトレードオフに取り組むことを目的としている。
  • 実験では、KVキャッシュ圧縮率50%において、クロスレイヤーKV圧縮技術の中で最先端(state-of-the-art)の結果が報告され、標準的なTransformerベースラインを上回る。