MemoSight：推論加速のためのコンテキスト圧縮とマルチトークン予測の統合

arXiv cs.AI / 2026/4/17

📰 ニュースModels & Research

共有:

要点

この論文は、LLMのチェーン・オブ・ソート（CoT）推論における重要なスケーリング課題として、生成トークン数に比例してKVキャッシュが増大し、速度とメモリのコストが高くなる点を扱います。
提案はMemoSightで、コンテキスト圧縮とマルチトークン予測を統合し、CoTの性能を維持しつつ効率を改善します。
MemoSightはミニマルな設計として、特別なトークンと各トークン種別に合わせた位置レイアウトを用いる同様の仕組みを、コンテキスト圧縮とマルチトークン予測の双方に適用します。
4つの推論ベンチマークでの実験では、KVキャッシュのフットプリントを最大66%削減し、推論を最大1.56倍高速化し、既存のCoT圧縮手法より優れた結果を示しています。

要旨: Chain-of-thought（CoT）推論はLLMが難しい推論問題を解くことを可能にする一方で、KVキャッシュは生成トークン数に対して線形に増大するため、CoT推論は速度とメモリ使用量の観点でスケーリング上の問題に直面します。本研究では、CoT推論の性能を維持しつつ効率性の問題を緩和するために、コンテキスト圧縮とマルチトークン予測の両方を統合した統一的枠組みであるMemoSight（Memory-Foresight-based reasoning）を提案します。本枠組みでは、特殊トークンと、それぞれのトークン種別に合わせて調整された対応する位置レイアウトを用いて、コンテキスト圧縮とマルチトークン予測の双方に対して同一の最小限の設計を採用します。4つの推論ベンチマークに関する包括的な実験により、MemoSightはKVキャッシュのフットプリントを最大66%削減し、推論を1.56倍高速化しつつ、既存のCoT圧縮手法よりも優れた性能を示すことが確認されました。