広告

[[R] Turboquantの抜け穴:推論の外れ値を、意味ノイズのフロアを恒久的に汚染することで救済する。

Reddit r/LocalLLaMA / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 検証や今後のコミュニティでの議論を支えるために、実行可能でColabに適したリポジトリと、確認用のZenodo下書きを提供します。
[[R] The loophole in Turboquant: It saves reasoning outliers by permanently polluting the semantic noise floor.

みなさん、

私も他のみんなと同じように、Turboquant、Rabitq、Quip、最近のllama.cppなどに出会ってきました。そこで、低ビット量子化の最中に、グローバル回転(global rotation)が隠れ状態(hidden states)に対して実際に何をしているのかを調べていました。これは議論する価値があると思うもので、ほぼすべての「グローバル回転」という概念に直撃します。さらに、論文の中でコミュニティの議論から追跡してきた直感に対して、その「なぜ(why)」を説明しようと試みました。

一般的に言われる話はこうです: • 素朴な低ビット量子化は外れ値(outliers)を壊す • 回転がそれらを分散させる • スカラー量子化はその後ならずっとうまく機能する

この部分は確かに正しいように思えます。

しかし、3ビットでQwen-2.5-1.5Bの再構成隠れ状態を直接測定してみると、このトレードオフが見つかりました:

• 外れ値の再構成は回転によって劇的に良くなる • コサイン類似度も良くなる • 大きなスパイクに対するMSEがかなり良くなる • ただし疎性(sparsity)はめちゃくちゃになる

私は、回転+量子化の後に381,999件のゴースト活性(ghost activations)を測定しました。つまりFP16では実質的に静かだったニューロンが、回転された再構成の後では強く活性化するようになった、ということです。

なので回転は、ひとつの問題を解決する代わりに別の問題を作っているようです:**それはハードクリッピング(hard clipping)を防ぎますが、マニフォールド(manifold)の静かな部分を「偽の発火(false firings)」で満たしてしまいます。

計算上の制限のため、qwenモデルの7bパラメータまでこれを試しました。そして20bの結果については、Gerganov(llama.cpp)の最近のPRを利用し、論文でもその点を説明しています。

もしこの点に穴があるのではと思う方、再現してみたい方、あるいはより良い疎性メトリクスを提案したい方がいれば、ぜひお願いします。本当にありがたいです。

• コード:https://github.com/pheonix-delta/llm-isotropic-tradeoff Collab上で簡単に実行できます。メトリクスが厳密になるようサンプリングのシードを固定してありますので、あらかじめ論文も読んでみてください。なお、ランダムシードで試したい場合のために、何をdltするか(dltとしてコメントしてあります)も書いてあります。

• 草稿:https://doi.org/10.5281/zenodo.19338651

同じ内容はGitHubでも共有されています。これは私の研究の終わりではありません。ここに投稿したのは、さらにフィードバックや議論を集めて、リポジトリを改善し、論文を強化したいからです。

提出者 /u/D_E_V_25
[リンク] [コメント]

広告