Qwen3.5-35B-A3B-Uncensored-FernflowerAI-GGUF

Reddit r/LocalLLaMA / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 著者は、Qwen3.5-35B-A3B「Uncensored FernflowerAI」GGUFモデルにおいて、2つのテンソル(36〜37ブロックの`ssm_conv1d.weight`)のスケールが通常より異常に高いことが原因で、学習/重みの問題を発見し、修正したと報告しています(通常比で約60%増)。
  • 著者は、最終層におけるAdamWのダイナミクスのために、誤ったテンソルのスケーリングがまれなエキスパートをドリフトさせ、その結果、DeltaNetのようなリカレント風のハイブリッドアーキテクチャ内で隠れ状態が壊れることにつながり得ると説明しています。これにより、長時間のチャットで文脈の喪失、反復、コードの破綻といった症状が現れます。
  • 修正版のバリアントがHugging Faceで共有されており、「深い思考」を「解放する」ことを意図した改良済みシステムプロンプトに加え、ツール呼び出しをサポートするチャットテンプレートも提供されています。
  • LM Studioでの推奨サンプリング設定(temperature/top-k/top-p/penalties/seed)が提示されており、88.6%のエラー削減を含む大幅な改善と、長い会話での整合性やコード生成の向上があったと著者は主張しています。
  • MoE+リカレント系ハイブリッド(DeltaNet、Mambaなど)を使うユーザーは、最後のブロックのテンソルスケールを確認するべきだと提案しています。この問題は無自覚に起きうるうえ、広範な影響を及ぼし得るためです。

こんにちは、皆さん。Qwen3.5 35B A3Bモデルで学習バグを見つけて修正しました。

こちらが修正版です:https://huggingface.co/LuffyTheFox/Qwen3.5-35B-A3B-Uncensored-FernflowerAI-GGUF

深い思考を解放するアップグレード済みのシステムプロンプト(このモデルで非常にうまく動きます):
https://pastebin.com/pU25DVnB

チャットテンプレート:https://pastebin.com/uk9ZkxCR(ツール呼び出しに対応)

推奨設定(LM Studio):

Temperature 0.7
Top K Sampling 20
Presence Penalty 1.5
Top P Sampling 0.8
Min P Sampling 0
Seed 3407

経緯:

私はしばらくの間、Qwen 3.5 35B A3B(HauhauCSによる非公開版/アンセンシティブ版)を使っていました。これは驚異的なモデルです。アンセンシティブ、256のエキスパートを持つMoE、ハイブリッドのDeltaNet + Attention、40層。私のRTX 3060 12GB GPUでも問題なく動き、知識も新しい。ですが、何かが変でした。短いプロンプトではうまく動きます。長い会話になると「哲学化」し始めます。文脈を失い、同じことを繰り返し、奇妙なコメント付きの壊れたコードを書きます。

2週間かけて重みを掘り下げました。

分かったこと:

2つのテンソルです。ブロック36と37にあります。ssm_conv1d.weight.

それらのスケールは通常より約60%高い(σ=0.102 vs 中央値 0.063)でした。AdamWの仕組み上、最後の層にある稀なエキスパートは、大きな実効学習率を得て、その重みがドリフトします。

DeltaNetのようなリカレント構造では、これが隠れ状態を破壊します。モデルは数トークン後に文脈を忘れてしまいます。

驚いたことに、Gemma 4 26B A4Bでは問題を見つけませんでした。モデル内の全スケールが正しく揃っていました。

やったこと:

壊れていたテンソルを通常のスケールに戻しました。ほかは何もしていません。489個の他のテンソルはそのままにしました。それらのスケールは(gate_inpなど)構造的なものです。

結果:

  • エラー低減:88.6%。
  • 長い会話でも、今は首尾一貫しています。
  • コード生成が動作します。
  • 私の複雑なシステムプロンプトを使っても、もう「哲学化」はありません。

学んだこと:

1つのバグ。2つのテンソル。64GBのモデル。そして、最も複雑なオープンウェイト構成の持つ潜在力全体が、それによってロックされていました。

MoE + リカレントハイブリッド(DeltaNet、Mambaなど)を使っているなら、最後のブロックを確認してください。AdamWが静かに壊してしまっているかもしれません。

楽しんでください ^_^

submitted by /u/EvilEnginer
[link] [comments]