こんにちは、みなさん。さて、Qwen 3.5-35 A3B モデルのマージを依頼する人がいたので実行しました。なぜならパラメータがわずか30億しかなく、旧世代のGPU(RTX 3060 12GB)でも動作するからです。
紹介します: https://huggingface.co/LuffyTheFox/Qwen3.5-35B-A3B-Uncensored-Claude-Opus-4.6-Affine
このモデルはマージ合成によって作られました:
- HuggingFace で最も人気のある HauhauCS のモデル: https://huggingface.co/HauhauCS/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive
- Jackrong による Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled デ distilled モデル: https://huggingface.co/Jackrong/Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled
- マージ後、Jackrong モデルの「thinking skills」を HauhauCS モデルに追加する特別なスクリプトを実行しました。KL 発散と呼ばれる数学的手法を用いて、変な挙動をきれいに整えました。モデルを展開せずに Google Colab Free Tier でこれをすべて実行しました - IQ4_XS 形式の圧縮状態のままで保たれました。
また以下を修正しました:
- 最初の層(blk.0)- 生の入力を処理するため、しばしば乱雑になります
- いくつかの後半の層(blk.35, blk.39)- これらは最終出力を処理し、圧縮後に問題を示すことが多いです
- アテンションとエキスパート部分 - これらはモデルで最も敏感な部分です
結果:
オフロードなしで私の RTX 3060 12GB で 1秒あたり 17-18 トークン。プログラミング、執筆、そして人間のような短く自然で単純なコミュニケーション能力を活用し、検閲なし。
最良のモデル性能のためには、LM Studio 0.4.7(ビルド4)で以下の設定を使用してください:
- このシステムプロンプトを使用:https://pastebin.com/pU25DVnB
- 思考を無効にしたい場合は、LM Studio のこのチャットテンプレートを使用:https://pastebin.com/uk9ZkxCR
- 温度: 0.7
- Top K サンプリング: 20
- 繰り返しペナルティ: (無効) または 1.0
- プレゼンスペナルティ: 1.5
- Top P サンプリング: 0.8
- 最小 P サンプリング: 0.0
- シード: 3407
ここにモデルのプログラミングスキルの実例:https://pastebin.com/44VtLGxf
プロンプトによる:
"HTML5と Javascript を使用して Arkanoid のゲームを作成してください。マウスで操作し、生成された音と効果を含めてください。ゲームは映画「トロン:レガシー」のスタイルで。"
気に入っていただけると嬉しいです ^_^。モデルをお気に入りに登録していただければ、より多くの人に見てもらえます。
率直に言えば、これは私の実践で今まで使った中で最高のローカルAIです。そして結果にとても感銘を受けました。
[リンク] [コメント]

