Open-TQ-Metal：Apple Silicon上での長文脈LLM推論のためのフューズド圧縮ドメイン・アテンション

arXiv cs.LG / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

Open-TQ-Metalは、Apple Silicon向けにフューズド圧縮ドメイン・アテンションを実装した新しい取り組みで、単一の64GBコンシューマMacでLlama 3.1 70Bの128Kコンテキスト推論を可能にします。
この手法はKVキャッシュをオンザフライでint4に量子化し、独自のMetal計算シェーダを用いて圧縮表現のまま注意（attention）を計算するため、中間の復号（dequantize）行列を不要にしています。
2つのモデル系列（Gemma 4 31BとLlama 3.1 70B）にまたがる330件の実験で、フューズドsdpa_int4カーネルは128Kコンテキストにおいて、dequantize-then-attend基準比で48×の注意計算速度向上を報告しています。
KVキャッシュのメモリ使用量は40GBから12.5GBへ（3.2×圧縮）削減され、FP16推論と比べてトップ1トークン予測が同一であるとされています。
さらに論文では、KVキャッシュ量子化に関するアーキテクチャ横断の知見を示し、角度（angular）系量子化（PolarQuantなど）の成否はモデル規模ではなく注意のスケール因子によって決まると主張しています。