| みなさんこんにちは、 コーディングと汎用用途向けに最適化した Qwen3.6 35B-A3B と Qwen3.6 27B をどうぞ。さらに、パズルもより正しく解けるようになっています。 当初の狙いは、私の 5090 環境で最も効率的な 35B-A3B の推論トレースを最適化することでした。私の本番では、prod で llama.cpp による並列ジョブを実行できるためです。 27B の一貫性は大好きです。ただ、長いホライズンの作業ではプリフィルの“ぐちゃぐちゃ”がつらい。 GBNF を調整して、改善があるか確認するために、私のカスタム Rust/Next.js ベンチで基本プロンプトをテストしました。その結果、35B-A3B の向上幅がいちばん良かったです: 「Hi」という単純なプロンプト、パズル、そして自作の Rust/Next.js ベンチ(60 task-suite)をテスト 皮肉なことに、コミュニティが 35B-A3B のシンプルな話題に対する推論の“引きずり”を正当に不満として挙げていたので、「Hi」プロンプトを使いました テストした仕様
チャートの鍵は「Total Score(合計スコア)」と「Finish Time(完了時間)」です――メモリあたりの精度は個人的な参照値 Qwen3.6 35B-A3B は、リーダー(チャートの先頭)として X6 -> X1 へ。大幅な時間削減とスコアの上乗せによりです。 Qwen3.6 27B は、より良いフィニッシュ時間のため X4 -> X3 へ移動しました――スコアは維持されています。 Qwen3.6 35B-A3B APEX I-Balanced: 1844 -> 2195 t/s Qwen3.6 27B Uncensored HauHauCS Aggressive Q6_K_P: 1067 -> 1193 t/s Rust/Next.js のベンチは OpenCode と一緒に“スクリプトで注入”する形で順番に実行していて、金融アプリケーションの本番リポジトリで動かしています。そのため公開はしていません。 パズルのプロンプト 念のため言うと、このパズルに対して 35B-A3B は非常に苦戦しました。ときどき CoT の終盤に向けてループしたり、誤った答えを返したりします。12秒かかるのに対して +2分だったので、試し直して正しい答えを得るのは簡単でした。 答えは「有効な経路は存在しない」であるべきです。モデルがこの問題でごりごりと回ってしまいます。 GBNF Grammar Open WebUI 上で CoT の外側にあるいくつかの think タグにだけ気づきました。 それ以外では、Hermes、llama.cpp の WebUI、OpenCode では問題なく動作します。 本番環境で(前回の睡眠時間までに)それ以上試す時間がなかったので、これがあなたの環境で少しでも役立てばと思います。 [link] [comments] |
GBNF文法の微調整でQwen3.6 35B-A3BとQwen3.6 27Bを高速化
Reddit r/LocalLLaMA / 2026/4/28
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- ユーザーは「GBNFを調整する」ことで、Qwen3.6 35B-A3B と Qwen3.6 27B の推論速度を向上させつつ、パズル問題での正答率も改善したと報告しています。
- RTX 5090/Fedora 43/llama.cpp mainline(4月24日)を用い、指定のGGUFビルドで検証したところ、27Bは文法適用時に出力トークン数やパズルの所要時間が大幅に減少しました。
- 「Hi」プロンプトは、シンプルな入力に対して推論が引っ張られる(遅くなる)というコミュニティの要望を反映する意図で使われています。
- ベンチ結果では、27Bのコーディング/汎用のスコアは「same score」のまま一方で生成時間が改善しており、今回の文法変更が主に効率に効いていることを示唆しています。
- 著者の主目的は、llama.cppでの並列ワークロードを前提に35B-A3Bの推論トレースを高速化することでしたが、35B-A3Bのほうが想定以上に改善したと述べています。



