Qwen3.6-27B：27Bの高密度モデルで“旗艦級”のコーディング性能

Simon Willison's Blog / 2026/4/23

📰 ニュースTools & Practical UsageModels & Research

原文を読む →

共有:

要点

Qwen3.6-27Bは27Bの高密度（dense）オープンウェイトモデルで、Qwenは主要なコーディングベンチマークで前世代のオープン旗艦Qwen3.5-397B-A17Bを上回る「旗艦級」のエージェント的コーディング性能を提供すると主張しています。
実際の取り回しという点では、前モデルより大幅に小さいことが示されており、Hugging Face上でQwen3.5-397B-A17Bは約807GBに対し、Qwen3.6-27Bは55.6GBです。
16.8GBのUnsloth GGUF量子化版（Q4_K_M）をllama-serverでローカル実行した手触りとして、SVG生成の例で「非常に優れた」結果が得られたと報告されています。
ブログには、llama.cpp/llama-serverの導入、具体的な実行コマンド、初回のキャッシュに関するメモなどの実用的な手順が含まれており、開発者が手元で試しやすくなっています。

Simon Willison’s Weblog

購読する

スポンサー: Honeycomb — AIエージェントは予測不能に振る舞います。何が実際に起きたのかをデバッグするのに必要なコンテキストを手に入れてください。ブログを読む

2026年4月22日 - リンクブログ

Qwen3.6-27B: 27Bの高密度モデルでフラッグシップ級のコーディング（via）Qwenによる最新のオープンウェイトモデルについての大きな主張：

Qwen3.6-27Bは、エージェント的なコーディングのフラッグシップ級の性能を提供し、前世代のオープンソース・フラッグシップであるQwen3.5-397B-A17B（合計397B / アクティブMoE 17B）を、主要なコーディングベンチマークのすべてで上回ります。

Hugging Faceの Qwen3.5-397B-A17B は807GBで、この新しい Qwen3.6-27B は55.6GBです。

私は、16.8GBのUnsloth Qwen3.6-27B-GGUF:Q4_K_M を量子化したバージョンと、llama-server を、Hacker Newsのbenobによるこのレシピを使って試してみました。その前に llama-server を brew install llama.cpp でインストールしています：

llama-server \
    -hf unsloth/Qwen3.6-27B-GGUF:Q4_K_M \
    --no-mmproj \
    --fit on \
    -np 1 \
    -c 65536 \
    --cache-ram 4096 -ctxcp 2 \
    --jinja \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.0 \
    --presence-penalty 0.0 \
    --repeat-penalty 1.0 \
    --reasoning on \
    --chat-template-kwargs '{"preserve_thinking": true}'

最初の実行で、約17GBのモデルが ~/.cache/huggingface/hub/models--unsloth--Qwen3.6-27B-GGUF に保存されました。

「ハチを自転車に乗せたSVGを生成する」のトランスクリプトはこちらです。これは、16.8GBのローカルモデルとしては傑出した結果です：

自転車にはスポーク、チェーン、正しい形のフレームがあります。ハンドルバーのパーツが少し離れています。ペリカンはハンドルバーに翼があり、妙に曲がった脚がペダルに触れており、良いくちばしがあります。背景のディテールも心地よいです——半透明の雲、鳥、芝生、太陽。