[[R] Turboquantの抜け穴：推論の外れ値を、意味ノイズのフロアを恒久的に汚染することで救済する。

Reddit r/LocalLLaMA / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

検証や今後のコミュニティでの議論を支えるために、実行可能でColabに適したリポジトリと、確認用のZenodo下書きを提供します。

[[R] The loophole in Turboquant: It saves reasoning outliers by permanently polluting the semantic noise floor.

みなさん、

私も他のみんなと同じように、Turboquant、Rabitq、Quip、最近のllama.cppなどに出会ってきました。そこで、低ビット量子化の最中に、グローバル回転（global rotation）が隠れ状態（hidden states）に対して実際に何をしているのかを調べていました。これは議論する価値があると思うもので、ほぼすべての「グローバル回転」という概念に直撃します。さらに、論文の中でコミュニティの議論から追跡してきた直感に対して、その「なぜ（why）」を説明しようと試みました。

一般的に言われる話はこうです： • 素朴な低ビット量子化は外れ値（outliers）を壊す • 回転がそれらを分散させる • スカラー量子化はその後ならずっとうまく機能する

この部分は確かに正しいように思えます。

しかし、3ビットでQwen-2.5-1.5Bの再構成隠れ状態を直接測定してみると、このトレードオフが見つかりました：

• 外れ値の再構成は回転によって劇的に良くなる • コサイン類似度も良くなる • 大きなスパイクに対するMSEがかなり良くなる • ただし疎性（sparsity）はめちゃくちゃになる

私は、回転＋量子化の後に381,999件のゴースト活性（ghost activations）を測定しました。つまりFP16では実質的に静かだったニューロンが、回転された再構成の後では強く活性化するようになった、ということです。

なので回転は、ひとつの問題を解決する代わりに別の問題を作っているようです：**それはハードクリッピング（hard clipping）を防ぎますが、マニフォールド（manifold）の静かな部分を「偽の発火（false firings）」で満たしてしまいます。

計算上の制限のため、qwenモデルの7bパラメータまでこれを試しました。そして20bの結果については、Gerganov（llama.cpp）の最近のPRを利用し、論文でもその点を説明しています。

もしこの点に穴があるのではと思う方、再現してみたい方、あるいはより良い疎性メトリクスを提案したい方がいれば、ぜひお願いします。本当にありがたいです。

• コード：https://github.com/pheonix-delta/llm-isotropic-tradeoff Collab上で簡単に実行できます。メトリクスが厳密になるようサンプリングのシードを固定してありますので、あらかじめ論文も読んでみてください。なお、ランダムシードで試したい場合のために、何をdltするか（dltとしてコメントしてあります）も書いてあります。

• 草稿：https://doi.org/10.5281/zenodo.19338651

同じ内容はGitHubでも共有されています。これは私の研究の終わりではありません。ここに投稿したのは、さらにフィードバックや議論を集めて、リポジトリを改善し、論文を強化したいからです。

提出者 /u/D_E_V_25
[リンク] [コメント]