RotorQuant：Cliffordロトールによるターボ量子化（TurboQuant）の10〜19倍高速な代替（44倍少ないパラメータ）

Reddit r/LocalLLaMA / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

RotorQuantは、TurboQuantの密なランダム直交行列を、Clifford代数（Cl(3,0)）のロトールで置き換えることを提案する。ベクトルの3Dチャンクに対し、ロトールの「サンドイッチ積」を適用することで、計算量とパラメータ数を削減する。
この手法は、メモリ往復を避ける融合CUDAカーネルと、融合Metalシェーダ実装を用いる。報告によれば、Qwen2.5-3B-InstructのKVキャッシュ処理において、NVIDIA RTX PRO 4000で10〜19×、Apple M4で9〜31×の高速化を達成している。
報告されている品質はTurboQuantと実質的に変わらない。コサイン類似度は0.991に対して約0.990で、「針を藁の中から探す」ような探索の成功率はビット幅を通じて9/9である。
RotorQuantは、パラメータ数が44倍少ない（d=128で372対16,399）と主張し、トレードオフとしてランダムな単位ベクトルに対する合成MSEが高くなる点を挙げる。この影響は、実モデルの注意（attention）忠実度を維持したまま、QJL補正により軽減されるとしている。

RotorQuant: CliffordロトールによるTurboQuantの10-19倍高速代替（44倍少ないパラメータ）

ちょっとばかげて聞こえるけど、私は Clifford 幾何代数のベクトル量子化（Clifford Algebra Vector Quantization）で、cuda + metal シェーダーの両方で動く形として turboquant を再構想し、再発明しました。—

https://github.com/tonbistudio/turboquant-pytorch/pull/4

https://github.com/TheTom/turboquant_plus/pull/34

https://preview.redd.it/mqwnea8iidrg1.png?width=2604&format=png&auto=webp&s=597710bff942ea68180f162ed147e134d33c9639

https://preview.redd.it/n9hjiq6iidrg1.png?width=2652&format=png&auto=webp&s=1ec464ada80dfff65ae7017ab9b834190ace2987

考え方： d×d のランダム直交行列 Π を、Cl(3,0) の Clifford ロトールで置き換えます。密な行列積（d=128 のとき 16,384 回の FMA）を行う代わりに、ベクトルを 3 次元ごとに塊（チャンク）にして、4 パラメータのロトールをサンドイッチ積 RvR̃（合計で約 100 回の FMA）で各塊を回転させます。

Qwen2.5-3B-Instruct の KV キャッシュでの結果：

- コサイン類似度：0.990（TurboQuant の 0.991 に対して）— 実質的に同一
- 44× 少ないパラメータ（d=128 の 372 対 16,399）
- フューズド CUDA カーネル：RTX PRO 4000 で cuBLAS の行列積より 10-19 倍高速
- フューズド Metal シェーダ：Apple M4 で 9-31 倍高速
- すべてのビット幅で 9/9 の完全な針穴探し（needle-in-haystack）

重要な洞察：純粋なベクトルに対しては、ロトールのサンドイッチは疎な 3×3 回転に等価です。フューズドカーネルはすべてをレジスタ内に保持し、メモリへの往復がないため、TurboQuant の行列積が高度に最適化されているにもかかわらず BLAS GEMM に勝てます。

トレードオフは、ランダムな単位ベクトルに対する合成 MSE が高くなることです（ブロック対角の回転は厳密なベータ分布を誘導しません）。ただし QJL 補正を使えば、実モデルでの注意（attention）の忠実度は同一で、場合によっては top-1/top-5 のリトリーバルがより良くなります。

論文：https://www.scrya.com/rotorquant/

コード：https://github.com/scrya-com/rotorquant

PDF：https://www.scrya.com/rotorquant.pdf

submitted by /u/Revolutionary_Ask154
[リンク] [コメント]

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

日経XTECH

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

Mistral AI Blog

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

Dev.to

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

Dev.to

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

Dev.to

RotorQuant：Cliffordロトールによるターボ量子化（TurboQuant）の10〜19倍高速な代替（44倍少ないパラメータ）

要点

関連記事

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer