Qwen3.6-27B-NVFP4（画像）

Reddit r/LocalLLaMA / 2026/5/2

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

この投稿では、AbirayのQwen3.6-27B-NVFP4.ggufを使ってローカル推論環境を成功させた内容が共有されています。
llama.cppサーバーの起動パラメータと、Legion 7i Gen10（RTX 5090搭載）・Core Ultra 9 275HX・32GB RAMといった環境に加え、NVFP4向けの設定が具体的に示されています。
llama.cppをCUDA有効・NVFP4有効でビルドする手順が詳細に掲載され、AVX-512/VNNIやCUDA F16、CUDA graphsなどのコンパイルフラグやツールチェーンの版も記載されています。
ビルド確認として、NVFP4テンソルコア（Blackwell FP4）対応や、GPU/CPUバックエンド（共有ライブラリ群）がコンパイルされ有効化されたことが述べられています。
設定したサーバーでSVG画像を生成する例題プロンプトが提示され、この構成での画像生成系の用途が示唆されています。

モデル: Abiray-Qwen3.6-27B-NVFP4.gguf
仕様:

- Legion 7i Gen10 - NVIDIA GeForce RTX™ 5090

- Intel® Core™ Ultra 9 275HX × 24

- RAM 32.0 GiB

llamacpp の設定:

./build/bin/llama-server \\ -m ~/.lmstudio/models/lmstudio-community/Qwen3.6-27B-GGUF/Abiray-Qwen3.6-27B-NVFP4.gguf \\ -ngl 99 \\ -c 131072 \\ -t 16 \\ -b 4096 \\ -ub 2048 \\ --cache-type-k q8_0 \\ --cache-type-v q8_0 \\ -fa 1 \\ --defrag-thold 0.1 \\ --temp 0.6 \\ --top-p 0.95 \\ --top-k 20 \\ --min-p 0.0 \\ --presence-penalty 0.0 \\ --repeat-penalty 1.0 \\ --metrics \\ --host 0.0.0.0 --port 8080 \\ -np 2

成功したビルドの詳細:

cmake -B build \\ -DGGML_CUDA=ON \\ -DCMAKE_CUDA_ARCHITECTURES="120" \\ -DCMAKE_BUILD_TYPE=Release \\ -DGGML_CUDA_F16=ON \\ -DGGML_CUDA_NVFP4=ON \\ -DGGML_CUDA_GRAPHS=ON \\ -DGGML_CCACHE=OFF \\ -DGGML_AVX512=ON \\ -DGGML_AVX512_VNNI=ON \\ -DLLAMA_CURL=ON \\ -DCMAKE_C_COMPILER=/usr/bin/gcc-14 \\ -DCMAKE_CXX_COMPILER=/usr/bin/g++-14 \\ -DCMAKE_CUDA_HOST_COMPILER=/usr/bin/g++-14 cmake --build build --config Release -j$(nproc) 2>&1 | tee /tmp/build_llamacpp.log

NVFP4 ✅
mmq-instance-nvfp4.cu.o コンパイル済み — Blackwell の FP4 テンソルコアが有効
mmq-instance-mxfp4.cu.o もコンパイル済み — MX の FP4 フォーマットにも対応
主要なバックエンドはすべてビルド済み ✅
libggml-cuda.so — GPU バックエンド
libggml-cpu.so — CPU バックエンド（あなたの AVX-512/VNNI フラグ付き）
libggml-base.so、libllama.so、libmtmd.so — すべての共有ライブラリ
コンパイラ & CUDA ✅
GCC 14.3.0 は C++ と CUDA のホストの両方に正しく使用
CUDA 13.2.78 ツールキットを検出して使用
アーキテクチャは 120 → 120a に自動アップグレード（Blackwell の仮想アーキテクチャ — これは正しく、より良いです。フォワード互換性のために PTX を有効にします）

llamacpp のバージョン: b8999

以前の投稿 Qwen3.6-27B-Q6_K で使用したプロンプトもこちらで参照できます: https://www.reddit.com/r/LocalLLaMA/comments/1szp96f/qwen3627bq6_k_images/

- ペリカンが自転車に乗っている svg 画像を作成
- 着物を着たカピバラが抹茶茶を飲んでいる svg 画像を作成
- 炎のように燃えるフラミンゴがカラフルなセーターを編んでいる svg 画像を作成
- サングラスをかけた寿司ロールがゴーカートを運転している svg 画像を作成
- ヴィクトリア朝のロボットがカフェで新聞を読んでいる svg 画像を作成
- 4 つの季節すべてを 1 枚のフレームで表し、花が咲く→しおれる→蝶へ変わるタイムラプス複合画像を作成（季節ごとのライティング）

SVG を白黒の背景に貼り付けて、最も見た目が良いものを選びました。

結論:

- 37 t/s

- モデルの創造性の低さが、画像に見て取れます。

- 画像はちょっと子ども向けの漫画っぽい、あるいは Q6_K と比べるとシンプルに見えます（Q6 も業界標準ではなかったですが、私は q6 を好みます）。

投稿者: /u/Usual-Carrot6352
[リンク] [コメント]