Together AI、長文脈LLMサービング向けに注意対応型2ビットKVキャッシュ量子化「OSCAR」をオープンソース化

MarkTechPost / 2026/5/26

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Together AIは、長文脈LLMサービングの効率化を目的としたINT2(2ビット)KVキャッシュ量子化手法「OSCAR」をオープンソースとして公開しました。
  • OSCARは、キーとバリューそれぞれに対して別々の回転を行い、注意に応じた共分散構造をオフライン推定して用いる点が特徴で、従来のデータ非依存のハダマール変換に基づく回転手法とは異なります。
  • 1つのKV要素あたり約2.28ビットで、BF16に対する精度ギャップをQwen3-4B-Thinking-2507で3.78ポイント、Qwen3-8Bで1.42ポイントまで縮小します。
  • 効率面では、KVメモリ使用量を約8倍削減し、コンテキスト長100Kで最大3倍のデコード高速化を狙っています。
  • 今回の公開により、OSCARは長文脈推論をメモリやレイテンシの増大に比例させずにスケールするための、実運用寄りのシステム最適化として位置づけられます。

Together AI は、長い文脈を扱う LLM 配信向けの INT2 KV キャッシュ量子化手法である OSCAR(Offline Spectral Covariance-Aware Rotation)を公開しました。データ非依存のハダマール変換を適用する従来の回転ベース手法とは異なり、OSCAR は、オフラインで推定された注意(アテンション)を考慮した共分散構造から、キーとバリューそれぞれに対して別個の回転を導出します。KV 要素あたり 2.28 ビットの OSCAR は、BF16 の精度ギャップを Qwen3-4B-Thinking-2507 では 3.78 ポイント、Qwen3-8B では 1.42 ポイントまで低減しつつ、KV メモリを約 8× 圧縮し、文脈長 100K で最大 3× のデコード速度向上を実現します。

投稿 Together AI Open-Sources OSCAR: An Attention-Aware 2-Bit KV Cache Quantization System for Long-Context LLM Serving は、MarkTechPost に初めて掲載されました。