こんにちは、皆さん。Qwen3.5 35B A3Bモデルで学習バグを見つけて修正しました。
こちらが修正版です:https://huggingface.co/LuffyTheFox/Qwen3.5-35B-A3B-Uncensored-FernflowerAI-GGUF
深い思考を解放するアップグレード済みのシステムプロンプト(このモデルで非常にうまく動きます):
https://pastebin.com/pU25DVnB
チャットテンプレート:https://pastebin.com/uk9ZkxCR(ツール呼び出しに対応)
推奨設定(LM Studio):
| Temperature | 0.7 |
|---|---|
| Top K Sampling | 20 |
| Presence Penalty | 1.5 |
| Top P Sampling | 0.8 |
| Min P Sampling | 0 |
| Seed | 3407 |
経緯:
私はしばらくの間、Qwen 3.5 35B A3B(HauhauCSによる非公開版/アンセンシティブ版)を使っていました。これは驚異的なモデルです。アンセンシティブ、256のエキスパートを持つMoE、ハイブリッドのDeltaNet + Attention、40層。私のRTX 3060 12GB GPUでも問題なく動き、知識も新しい。ですが、何かが変でした。短いプロンプトではうまく動きます。長い会話になると「哲学化」し始めます。文脈を失い、同じことを繰り返し、奇妙なコメント付きの壊れたコードを書きます。
2週間かけて重みを掘り下げました。
分かったこと:
2つのテンソルです。ブロック36と37にあります。ssm_conv1d.weight.
それらのスケールは通常より約60%高い(σ=0.102 vs 中央値 0.063)でした。AdamWの仕組み上、最後の層にある稀なエキスパートは、大きな実効学習率を得て、その重みがドリフトします。
DeltaNetのようなリカレント構造では、これが隠れ状態を破壊します。モデルは数トークン後に文脈を忘れてしまいます。
驚いたことに、Gemma 4 26B A4Bでは問題を見つけませんでした。モデル内の全スケールが正しく揃っていました。
やったこと:
壊れていたテンソルを通常のスケールに戻しました。ほかは何もしていません。489個の他のテンソルはそのままにしました。それらのスケールは(gate_inpなど)構造的なものです。
結果:
- エラー低減:88.6%。
- 長い会話でも、今は首尾一貫しています。
- コード生成が動作します。
- 私の複雑なシステムプロンプトを使っても、もう「哲学化」はありません。
学んだこと:
1つのバグ。2つのテンソル。64GBのモデル。そして、最も複雑なオープンウェイト構成の持つ潜在力全体が、それによってロックされていました。
MoE + リカレントハイブリッド(DeltaNet、Mambaなど)を使っているなら、最後のブロックを確認してください。AdamWが静かに壊してしまっているかもしれません。
楽しんでください ^_^
[link] [comments]



