TurboQuantが最近話題にされ、48時間でメモリチップ市場から数千億が消し飛びましたが、このコミュニティの誰でも論文を読めば、パニックの問題点はすぐに見えていたはずです。
TurboQuantは、極座標の量子化によって、KVキャッシュを標準の16ビットから3ビット/値まで圧縮します。ですが、KVキャッシュは推論メモリです。訓練メモリ、アクティベーション、勾配、オプティマイザの状態はまったく別物で、そして一切手つかずです。さらに、HBM需要の大部分は訓練から来ています。推論の圧縮に関する論文では、その数は動きません。
また、市販の推論ベースラインはすでに4〜8ビット精度で動作しています。「6倍」という見出しは、16ビットのフル精度に対してベンチマークされています。実際に導入されているものとの差分としての限界的な得は、その数が示唆するよりもかなり小さいです。
さらに最大の点として、この論文は2025年からずっと放置されていました。数学が初めて文書化されてから1年の間でも、Googleはそれを広く展開していません。
いま、AI効率に関する論文をきっかけに市場がパニック売りでメモリ株を投げ売りしたのは、14か月のうち2回目です。DeepSeekが最初でした。どちらの場合も、テーゼは誤っていて、ただのパニックだと考えています。
誰かが読みたいということであれば、この件についての完全な内訳を書きました。
[リンク] [コメント]




