TurboQuant / RaBitQに関する技術的な明確化：最近のTurboQuantの議論に追随する人々へ

Reddit r/LocalLLaMA / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

著者のJianyang Gao（RaBitQ論文の第一著者）が、r/LocalLLaMA上でTurboQuantについて議論が高まっていることを受けて、TurboQuantとRaBitQの関係に関する混乱を正す目的で公開の技術的な明確化を投稿した。

私はJianyang Gaoで、RaBitQ論文の第一著者です。この投稿をここに行うのは、ローカル推論 / KV-cache 圧縮の文脈で、TurboQuantが現在 `r/LocalLLaMA` で議論されているためです。そして、コミュニティには、公の記録として技術的に正確な比較が必要だと考えています。

公開討論とTurboQuantの宣伝が、私たちのRaBitQの取り組みとの関係についてすでにかなりの混乱を生んでしまっているため、私たちはこのコメントを投稿して公の記録を作るために行っています[1, 2]。これらの問題や説明は、今回が初めて提起されたわけではありません。2025年1月に、論文の第二著者であるMajid Daliriが、私たちのRaBitQ実装のPythonへの翻訳についてデバッグするために連絡してきました。2025年5月、彼らがarXiv上で公開したTurboQuantの論文を見つけた後、私たちは以下の懸念を直接、詳細に彼へ伝えました。それにもかかわらず、著者らはICLRへの提出原稿において、不正確な記述をそのまま保持しています。最近、2026年3月26日に、私たちは全著者に対して改めて正式に通知しました。しかし、ICLR 2026のカンファレンスが開催された後になってから、かつこれらの問題の一部だけを修正すると彼らは合意しました。私たちは、これは最近の宣伝によってすでに広く生み出されている誤解を払拭するには不十分であり、むしろICLRの会議自体でさらなる混乱を生む可能性があると考えています。

私たちの懸念は3点あります。

RaBitQの方法レベルの説明が実質的に不完全です。 TurboQuantは、その方法の重要なステップとしてランダム回転を繰り返し挙げていますが、そのRaBitQの説明は主にグリッドベースのPQ（Quantization / Product Quantization）という枠組みに縮退しており、2つの手法を結びつける最も重要な要素の一つであるJohnson-Lindenstrauss変換 / ランダム回転が省略されています。さらに、2人の査読者がJohnson-Lindenstrauss変換 / ランダム回転についての明確化と議論を求めた後でも、TurboQuantのICLR camera-ready版にはそのような議論は追加されず、代わりに本文中のRaBitQの元々の説明が付録へ移されただけでした。
理論面の説明が裏付けられていません。 TurboQuantは、RaBitQの保証を「suboptimal（最適ではない）」と記述し、説明なしに「loose analysis（緩い解析）」に帰した一方で、私たちの論文[2]は2024年9月にすでに漸近的最適性（asymptotic optimality）を明確に主張しており、それはAlonとKlartag[3]による最適な上界と一致します。この問題は2025年5月のメールで明示的に提起され、明確化もされたにもかかわらず、著者らはいまだに、TurboQuantの保証がICLRへの提出原稿においてRaBitQの系統とどのように比較されるのかを、体系的に説明していません。
実験的比較も完全な開示がありません。 Majidの2025年1月のメールは、彼が私たちのRaBitQのC++実装をPythonに翻訳し、それをデバッグするのを私たちに手伝ってほしいと依頼していたことを示しています。2025年5月には、報告されたランタイム設定において、RaBitQのベースラインはmultiprocessingを無効にした状態の単一CPU上で実行されていたことを、彼はさらに認めています。一方で、TurboQuantの手法自体はA100 GPU上で実行されています。それでも公開論文では、実験セットアップを明確に開示せずに効率に関する主張がなされています。この問題も、2025年5月の私たちの非公開メールで提起されました。

2025年5月、私たちのメールでは理論面と実験面の問題点を直接提起しました。Majidは、彼が共同著者へ伝えたと書いていました。ICLRの査読の際にも、査読者はランダム回転とRaBitQとの関係について明確化を求めました。2026年3月26日に、私たちはこれらの懸念を改めて全著者に対して正式に提起し、修正はICLR 2026のカンファレンス終了後まで待つことになると言われました。また、Johnson-Lindenstrauss変換に関する構造的な類似性については認めないとも告げられました。現時点の公開された宣伝の度合いと、コミュニティ内の混乱の状況を踏まえると、それは容認できるものだとは考えていません。

私たちは、コミュニティに正確な公的記録が残るようにこのコメントを投稿しています。著者らには、TurboQuantとRaBitQの方法レベルでの関係、理論面の比較、そして報告されているRaBitQベースラインの背後にある正確な実験条件について、公開かつ迅速に明確化することを求めます。これらの懸念が、ICLRへの投稿前、ならびに現在のTurboQuantの一連の公開プロモーションが始まる前から知られていたことを考えると、これらの問題を公の議論の場に持ち込む必要があると私たちは考えています。

公開OpenReviewスレッド： https://openreview.net/forum?id=tO3ASKZlok

参考文献

[1] Jianyang Gao and Cheng Long, "RaBitQ: Quantizing High-Dimensional Vectors with a Theoretical Error Bound for Approximate Nearest Neighbor Search," Proceedings of the ACM International Conference on Management of Data (SIGMOD), 2024.

[2] Jianyang Gao, Yutong Gou, Yuexuan Xu, Yongyi Yang, Cheng Long, and Raymond Chi-Wing Wong, "Practical and Asymptotically Optimal Quantization of High-Dimensional Vectors in Euclidean Space for Approximate Nearest Neighbor Search," arXiv:2409.09913, Sep. 2024; 後にSIGMOD 2025で出版。

[3] Noga Alon and Bo'az Klartag, "Optimal compression of approximate inner products and dimension reduction," 2017 IEEE 58th Annual Symposium on Foundations of Computer Science (FOCS), IEEE, 2017.

submitted by /u/gaoj0017
[link] [comments]