Open-TQ-Metal:Apple Silicon上での長文脈LLM推論のためのフューズド圧縮ドメイン・アテンション
arXiv cs.LG / 2026/4/21
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- Open-TQ-Metalは、Apple Silicon向けにフューズド圧縮ドメイン・アテンションを実装した新しい取り組みで、単一の64GBコンシューマMacでLlama 3.1 70Bの128Kコンテキスト推論を可能にします。
- この手法はKVキャッシュをオンザフライでint4に量子化し、独自のMetal計算シェーダを用いて圧縮表現のまま注意(attention)を計算するため、中間の復号(dequantize)行列を不要にしています。
- 2つのモデル系列(Gemma 4 31BとLlama 3.1 70B)にまたがる330件の実験で、フューズドsdpa_int4カーネルは128Kコンテキストにおいて、dequantize-then-attend基準比で48×の注意計算速度向上を報告しています。
- KVキャッシュのメモリ使用量は40GBから12.5GBへ(3.2×圧縮)削減され、FP16推論と比べてトップ1トークン予測が同一であるとされています。
- さらに論文では、KVキャッシュ量子化に関するアーキテクチャ横断の知見を示し、角度(angular)系量子化(PolarQuantなど)の成否はモデル規模ではなく注意のスケール因子によって決まると主張しています。




