Together AI、長文脈LLMサービング向けに注意対応型2ビットKVキャッシュ量子化「OSCAR」をオープンソース化

MarkTechPost / 2026/5/26

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

Together AIは、長文脈LLMサービングの効率化を目的としたINT2（2ビット）KVキャッシュ量子化手法「OSCAR」をオープンソースとして公開しました。
OSCARは、キーとバリューそれぞれに対して別々の回転を行い、注意に応じた共分散構造をオフライン推定して用いる点が特徴で、従来のデータ非依存のハダマール変換に基づく回転手法とは異なります。
1つのKV要素あたり約2.28ビットで、BF16に対する精度ギャップをQwen3-4B-Thinking-2507で3.78ポイント、Qwen3-8Bで1.42ポイントまで縮小します。
効率面では、KVメモリ使用量を約8倍削減し、コンテキスト長100Kで最大3倍のデコード高速化を狙っています。
今回の公開により、OSCARは長文脈推論をメモリやレイテンシの増大に比例させずにスケールするための、実運用寄りのシステム最適化として位置づけられます。

Together AI は、長い文脈を扱う LLM 配信向けの INT2 KV キャッシュ量子化手法である OSCAR（Offline Spectral Covariance-Aware Rotation）を公開しました。データ非依存のハダマール変換を適用する従来の回転ベース手法とは異なり、OSCAR は、オフラインで推定された注意（アテンション）を考慮した共分散構造から、キーとバリューそれぞれに対して別個の回転を導出します。KV 要素あたり 2.28 ビットの OSCAR は、BF16 の精度ギャップを Qwen3-4B-Thinking-2507 では 3.78 ポイント、Qwen3-8B では 1.42 ポイントまで低減しつつ、KV メモリを約 8× 圧縮し、文脈長 100K で最大 3× のデコード速度向上を実現します。

投稿 Together AI Open-Sources OSCAR: An Attention-Aware 2-Bit KV Cache Quantization System for Long-Context LLM Serving は、MarkTechPost に初めて掲載されました。

Black Hat USA

AI Business

アステモ、E2E開発基盤で日立と協業「2ステージAIでNOA」

日経XTECH

予言されていた「Mythos」の登場、AIによる脆弱性発見は転換点に

日経XTECH

脆弱性の急増で現場が逼迫 Mythos以降は人力に限界、AIで自動化へ

日経XTECH

始まったクラウド値上げ焦点は大手3社、Google「石油価格に懸念なし」

日経XTECH

Together AI、長文脈LLMサービング向けに注意対応型2ビットKVキャッシュ量子化「OSCAR」をオープンソース化

要点

関連記事

Black Hat USA

アステモ、E2E開発基盤で日立と協業「2ステージAIでNOA」

予言されていた「Mythos」の登場、AIによる脆弱性発見は転換点に

脆弱性の急増で現場が逼迫 Mythos以降は人力に限界、AIで自動化へ

始まったクラウド値上げ焦点は大手3社、Google「石油価格に懸念なし」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

アステモ、E2E開発基盤で日立と協業 「2ステージAIでNOA」

予言されていた「Mythos」の登場、AIによる脆弱性発見は転換点に

脆弱性の急増で現場が逼迫 Mythos以降は人力に限界、AIで自動化へ

始まったクラウド値上げ 焦点は大手3社、Google「石油価格に懸念なし」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

アステモ、E2E開発基盤で日立と協業「2ステージAIでNOA」

始まったクラウド値上げ焦点は大手3社、Google「石油価格に懸念なし」