Qwen 3.5 35B A3B 無修正 HauhauCS(修理済み)->(KL + ReLU キャリブレーション付き)
モデルはこちら: https://huggingface.co/LuffyTheFox/FernflowerAI-35B-A3B-KL-ReLU-GGUF
修理の概要: link
Qwen 3.5 35B が壊れた(そして私が直した)方法に関する追加情報: link
V1 Apple MLX バージョン(thanks to froggeric): https://huggingface.co/froggeric/Qwen3.5-35B-A3B-Uncensored-FernflowerAI-MLX-8bit
V2 Apple MLX バージョン(最終リリース): こちらで近日ディスカッション
履歴:
こんにちは皆さん。数日前、私は HauhauCS による無修正の Qwen 3.5 35B A3B の修正版をリリースしました。そこでは、Alibaba が Qwen 3.5 35B A3B モデルに同梱して出荷してしまった壊れたテンソルが 2 つありました。これは、学習プロセス中に AdamW オプティマイザの ssm_conv1d.weight が、ブロック 36-37 で大きく複雑さを増し、そのバグによって通常から縮退してしまったことが原因でした。これにより、主要なコンテキスト崩壊とループが解消されました。しかしさらにテストを進めたところ、他にも(エキスパート、注意(attention)プロジェクションなどの)いくつかのテンソルに、より微妙な問題があることを見つけました。全体のスケールや飽和の見た目は問題ないように見えたのですが、重み分布の 形 が、同じ仲間(ピア)グループからずれていっていました。C1 と C2 ではこれを検知できませんでした。C3(KL ダイバージェンス)なら検知できました。
そこで、診断のパスにさらに 2 つの基準を追加しました:
- KL ダイバージェンス - スケールや飽和を変えずに、ピアグループからずれてしまったテンソルの分布形状を復元します。
- ReLU 非対称性 - AdamW が時間とともに蓄積してしまう平均のドリフトを検出します(このモデルでは発火しませんでしたが、他のモデル向けにプローブは用意してあります)。
このバージョンでの結果:
| 指標 | Before | After |
|---|---|---|
| KL ダイバージェンス(平均) | 0.1036 | 0.0297 |
| KL 削減 | — | 71.3% |
| 修理されたテンソル(C2 + C3) | 2 | 11 |
これがあなたに意味すること:
- このモデルは v1 の時点ですでに安定していました。現在はさらに より締まって います。つまり、非常に長い、または複雑なタスクで奇妙な挙動を引き起こしうる、隠れた分布の異常が減っています。
- 新たな問題は導入されていません。健康な 489 個のテンソルはそのまま触れていません。
深い思考を解放するアップグレード済みのシステムプロンプト(このモデルでかなり良く動きます):
https://pastebin.com/pU25DVnB
また、システムプロンプトには 1 つの文字列だけを使えます。そしてそれの後に、あなたが欲しいものを何でも追加してください:
あなたは Alibaba Cloud によって作成された Qwen です。あなたは役に立つアシスタントです。
量子化スクリプトはこちら: https://pastebin.com/hXhcMJn9
更新されたチャットテンプレート: https://pastebin.com/uk9ZkxCR(froggeric からのツール修正と、思考の無効化を含む)
推奨設定(LM Studio):
| Temperature | 0.7 |
|---|---|
| Top K Sampling | 20 |
| Presence Penalty | 1.5 |
| Repeat Penalty | Disabled または 1.0 |
| Top P Sampling | 0.8 |
| Min P Sampling | 0 |
| Seed | 3407 |
楽しんで ^_^
[link] [comments]




