FernflowerAI-35B-A3B-KL-ReLU-GGUF + Apple MLX

Reddit r/LocalLLaMA / 2026/4/12

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

原文を読む →

共有:

要点

FernflowerAI-35B-A3B-KL-ReLU-GGUFは、修復済みのQwen 3.5 35B A3Bアンセンサーモデルで、追加のKLダイバージェンスおよびReLU非対称性（asymmetry）キャリブレーションの診断を組み込むことで、先行して行われた文脈崩壊（context-collapse）対策のさらに微妙な重み分布ドリフトに対応します。
著者は、元の学習で壊れていた2つのテンソル（特にブロック36〜37のssm_conv1d.weight）について、まずスケールを戻すことで修正し、主要な文脈崩壊やループを解消できたと報告しています。しかし、その後の追加テストで、スケール／飽和（saturation）の見た目は問題ない一方で、分布形状がドリフトしている別のテンソルが見つかりました。
KLダイバージェンスを用いて、ドリフトしたテンソルの分布形状を復元しつつ、スケールや飽和は変えないようにします。また、AdamWの下で蓄積し得る平均ドリフトを検出するためのReLU非対称性プローブも含まれています（ただし今回の特定のモデルでは、これがトリガーされることはありませんでした）。
定量的には、平均KLダイバージェンスが0.1036から0.0297へ低下し、KL削減率は71.3%です。さらに、拡張された診断条件により修復されるテンソル数が2から11へ増加しています。
本記事では、Apple MLXの利用可能性についても触れており、froggericによる8-bitのMLX版と、関連する議論を経て計画されている「final release」のsafetensors/MLX版が紹介されています。

Qwen 3.5 35B A3B 無修正 HauhauCS（修理済み）->（KL + ReLU キャリブレーション付き）

モデルはこちら： https://huggingface.co/LuffyTheFox/FernflowerAI-35B-A3B-KL-ReLU-GGUF

修理の概要： link

Qwen 3.5 35B が壊れた（そして私が直した）方法に関する追加情報： link

V1 Apple MLX バージョン（thanks to froggeric）： https://huggingface.co/froggeric/Qwen3.5-35B-A3B-Uncensored-FernflowerAI-MLX-8bit

V2 Apple MLX バージョン（最終リリース）： こちらで近日ディスカッション

履歴：
こんにちは皆さん。数日前、私は HauhauCS による無修正の Qwen 3.5 35B A3B の修正版をリリースしました。そこでは、Alibaba が Qwen 3.5 35B A3B モデルに同梱して出荷してしまった壊れたテンソルが 2 つありました。これは、学習プロセス中に AdamW オプティマイザの ssm_conv1d.weight が、ブロック 36-37 で大きく複雑さを増し、そのバグによって通常から縮退してしまったことが原因でした。これにより、主要なコンテキスト崩壊とループが解消されました。しかしさらにテストを進めたところ、他にも（エキスパート、注意（attention）プロジェクションなどの）いくつかのテンソルに、より微妙な問題があることを見つけました。全体のスケールや飽和の見た目は問題ないように見えたのですが、重み分布の形が、同じ仲間（ピア）グループからずれていっていました。C1 と C2 ではこれを検知できませんでした。C3（KL ダイバージェンス）なら検知できました。

そこで、診断のパスにさらに 2 つの基準を追加しました：

KL ダイバージェンス - スケールや飽和を変えずに、ピアグループからずれてしまったテンソルの分布形状を復元します。
ReLU 非対称性 - AdamW が時間とともに蓄積してしまう平均のドリフトを検出します（このモデルでは発火しませんでしたが、他のモデル向けにプローブは用意してあります）。

このバージョンでの結果：

指標	Before	After
KL ダイバージェンス（平均）	0.1036	0.0297
KL 削減	—	71.3%
修理されたテンソル（C2 + C3）	2	11

これがあなたに意味すること：

このモデルは v1 の時点ですでに安定していました。現在はさらに より締まって います。つまり、非常に長い、または複雑なタスクで奇妙な挙動を引き起こしうる、隠れた分布の異常が減っています。
新たな問題は導入されていません。健康な 489 個のテンソルはそのまま触れていません。

深い思考を解放するアップグレード済みのシステムプロンプト（このモデルでかなり良く動きます）：
https://pastebin.com/pU25DVnB

また、システムプロンプトには 1 つの文字列だけを使えます。そしてそれの後に、あなたが欲しいものを何でも追加してください：
あなたは Alibaba Cloud によって作成された Qwen です。あなたは役に立つアシスタントです。

量子化スクリプトはこちら： https://pastebin.com/hXhcMJn9

更新されたチャットテンプレート： https://pastebin.com/uk9ZkxCR（froggeric からのツール修正と、思考の無効化を含む）

推奨設定（LM Studio）：

Temperature	0.7
Top K Sampling	20
Presence Penalty	1.5
Repeat Penalty	Disabled または 1.0
Top P Sampling	0.8
Min P Sampling	0
Seed	3407

楽しんで ^_^

submitted by /u/EvilEnginer
[link] [comments]

Black Hat USA

AI Business

Black Hat Asia

AI Business

開発者はすでにローカルでAIを動かしている：オンデバイス推論がCISOの新たな盲点になる理由

VentureBeat

マイクロソフト、ローカルAI環境をインストーラで配布できる「Foundry Local」正式リリース。MacやLinuxにも対応

Publickey

オムロン子会社の新強化学習技術、オンラインで全エピソードの安全保証

日経XTECH

FernflowerAI-35B-A3B-KL-ReLU-GGUF + Apple MLX

要点

関連記事

Black Hat USA

Black Hat Asia

開発者はすでにローカルでAIを動かしている：オンデバイス推論がCISOの新たな盲点になる理由

マイクロソフト、ローカルAI環境をインストーラで配布できる「Foundry Local」正式リリース。MacやLinuxにも対応

オムロン子会社の新強化学習技術、オンラインで全エピソードの安全保証

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer