要旨: Chain-of-thought(CoT)推論はLLMが難しい推論問題を解くことを可能にする一方で、KVキャッシュは生成トークン数に対して線形に増大するため、CoT推論は速度とメモリ使用量の観点でスケーリング上の問題に直面します。本研究では、CoT推論の性能を維持しつつ効率性の問題を緩和するために、コンテキスト圧縮とマルチトークン予測の両方を統合した統一的枠組みであるMemoSight(Memory-Foresight-based reasoning)を提案します。本枠組みでは、特殊トークンと、それぞれのトークン種別に合わせて調整された対応する位置レイアウトを用いて、コンテキスト圧縮とマルチトークン予測の双方に対して同一の最小限の設計を採用します。4つの推論ベンチマークに関する包括的な実験により、MemoSightはKVキャッシュのフットプリントを最大66%削減し、推論を1.56倍高速化しつつ、既存のCoT圧縮手法よりも優れた性能を示すことが確認されました。
MemoSight:推論加速のためのコンテキスト圧縮とマルチトークン予測の統合
arXiv cs.AI / 2026/4/17
📰 ニュースModels & Research
要点
- この論文は、LLMのチェーン・オブ・ソート(CoT)推論における重要なスケーリング課題として、生成トークン数に比例してKVキャッシュが増大し、速度とメモリのコストが高くなる点を扱います。
- 提案はMemoSightで、コンテキスト圧縮とマルチトークン予測を統合し、CoTの性能を維持しつつ効率を改善します。
- MemoSightはミニマルな設計として、特別なトークンと各トークン種別に合わせた位置レイアウトを用いる同様の仕組みを、コンテキスト圧縮とマルチトークン予測の双方に適用します。
- 4つの推論ベンチマークでの実験では、KVキャッシュのフットプリントを最大66%削減し、推論を最大1.56倍高速化し、既存のCoT圧縮手法より優れた結果を示しています。


