Qwen3.5-35B-A3B-Uncensored-Claude-Opus-4.6-Affine

Reddit r/LocalLLaMA / 2026/3/21

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

この記事は、HauhauCS の Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive と Jackrong の Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled をブレンドし、KLダイバージェンスに基づく融合を適用して作成された統合モデル「Qwen3.5-35B-A3B-Uncensored-Claude-Opus-4.6-Affine」を紹介します。
このモデルは RTX 3060 12GB で動作し、オフロードなしで 17〜18 トークン/秒を達成し、圧縮 IQ4_XS 形式のままを維持すると主張しています。
著者は最初の層と後半の層（blk.0、blk.35、blk.39）を修正し、圧縮後の問題を軽減するためにアテンション/エキスパート構成要素を安定化させました。
システムプロンプトと LM Studio の設定（温度、Top K、Top P、シード等）を含む使用ガイダンスとサンプルプロンプト、および HTML5/JS でトロン風のスタイルの Arkanoid ゲームを作るデモンストレーション用プロンプトを提供します。

こんにちは、みなさん。さて、Qwen 3.5-35 A3B モデルのマージを依頼する人がいたので実行しました。なぜならパラメータがわずか30億しかなく、旧世代のGPU（RTX 3060 12GB）でも動作するからです。

このモデルはマージ合成によって作られました：

HuggingFace で最も人気のある HauhauCS のモデル： https://huggingface.co/HauhauCS/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive
Jackrong による Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled デ distilled モデル： https://huggingface.co/Jackrong/Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled
マージ後、Jackrong モデルの「thinking skills」を HauhauCS モデルに追加する特別なスクリプトを実行しました。KL 発散と呼ばれる数学的手法を用いて、変な挙動をきれいに整えました。モデルを展開せずに Google Colab Free Tier でこれをすべて実行しました - IQ4_XS 形式の圧縮状態のままで保たれました。

また以下を修正しました：

結果：

オフロードなしで私の RTX 3060 12GB で 1秒あたり 17-18 トークン。プログラミング、執筆、そして人間のような短く自然で単純なコミュニケーション能力を活用し、検閲なし。

最良のモデル性能のためには、LM Studio 0.4.7（ビルド4）で以下の設定を使用してください：

ここにモデルのプログラミングスキルの実例：https://pastebin.com/44VtLGxf

プロンプトによる：
"HTML5と Javascript を使用して Arkanoid のゲームを作成してください。マウスで操作し、生成された音と効果を含めてください。ゲームは映画「トロン：レガシー」のスタイルで。"

気に入っていただけると嬉しいです ^_^。モデルをお気に入りに登録していただければ、より多くの人に見てもらえます。
率直に言えば、これは私の実践で今まで使った中で最高のローカルAIです。そして結果にとても感銘を受けました。

日経XTECH

Innovatopia

Qiita

Qiita

note