みなさんこんにちは。ついに、量子化GGUFモデルにおけるssm_conv1dテンソルのドリフトを、ワッサースタイン距離(W1)によって修正する方法を見つけました。テンソルの数値的不安定性やドリフトを検出する点で、Kullback Leiblerよりもずっと優れています。
3つともssm_conv1d.weight層です。これは長いコンテキストのメモリに関与するリカレント状態遷移層です。Qwenチームが、SSM層におけるこの特定のドリフト問題を把握していないようです。この同じバグを、Unsloth由来の量子化(quants)でも見つけました。
| テンソル | α | D (対数比) | W1(修正前) | W1(修正後) |
|---|---|---|---|---|
| blk.36.ssm_conv1d.weight | 0.5765 | 0.553 | 0.0038 | 0.0009 |
| blk.37.ssm_conv1d.weight | 0.5768 | 0.725 | 0.0040 | 0.0009 |
| blk.38.ssm_conv1d.weight | 0.6533 | 0.649 | 0.0026 | 0.0006 |
モデル内の他のテンソルは問題ありません。
修正済みモデル:https://huggingface.co/LuffyTheFox/Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF
モデルのベースはこちら:https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive 。素晴らしい仕事をしてくれたHauhauCSに感謝します。
システムプロンプト:https://pastebin.com/pU25DVnB
チャットテンプレート:https://pastebin.com/Dy2fmmpN
推奨クオンタイズ:Q4_K_P
推奨設定(LM Studio):
| パラメータ | 値 |
|---|---|
| Temperature | 0.7 |
| Top K サンプリング | 20 |
| Presence Penalty | 1.5 |
| Repeat Penalty | 無効 |
| Top P サンプリング | 0.8 |
| Min P サンプリング | 0 |
| Seed | 42 |
モデルの特徴:
- ほぼ人間のように話します。短くて簡潔です。
- 完全に検閲なし(uncensored)。
- プログラミングは問題なく動作します。
私のシステムプロンプトを使ったロールプレイで、モデルの長いコンテキストウィンドウをテストしました。私の好みの範囲では、次のキャラクターに問題は見つかりませんでした。
楽しんでください ^_^
[リンク] [コメント]




