最近、llama.cpp、mlx、vllm、sglang において TurboQuant の実装が多くなってきましたが、それらに関する議論やコードの多くは、かなり騒がしく、AIが生成したように見えます。
私は、論文の主張のうち、実際に独立した第三者によって検証されたものが何かを理解しようとしています。たとえば、ロスレス圧縮という主張は再現されているのでしょうか。また、TurboQuant は実際には他の低ビット量子化手法と比べてどのような性能を発揮するのでしょうか。
私は丸一日かけて TurboQuant+QJL の再現を行いましたが、自分のテストではパフォーマンスが悪化するだけでした。ここで QJL が、実際に意味のある実用上のメリットを提供しているのか気になっています。
[link] [comments]




