Together AI は、長い文脈を扱う LLM 配信向けの INT2 KV キャッシュ量子化手法である OSCAR(Offline Spectral Covariance-Aware Rotation)を公開しました。データ非依存のハダマール変換を適用する従来の回転ベース手法とは異なり、OSCAR は、オフラインで推定された注意(アテンション)を考慮した共分散構造から、キーとバリューそれぞれに対して別個の回転を導出します。KV 要素あたり 2.28 ビットの OSCAR は、BF16 の精度ギャップを Qwen3-4B-Thinking-2507 では 3.78 ポイント、Qwen3-8B では 1.42 ポイントまで低減しつつ、KV メモリを約 8× 圧縮し、文脈長 100K で最大 3× のデコード速度向上を実現します。
投稿 Together AI Open-Sources OSCAR: An Attention-Aware 2-Bit KV Cache Quantization System for Long-Context LLM Serving は、MarkTechPost に初めて掲載されました。
