ここ数週間、私は自分のハードウェアでこのモデルを動かそうと頑張ってきました。オープンモデルがどれほど進化したのか、まだ信じられないくらいです。このサブと素晴らしい人々がいなければ、このモデルを5歳のノートPCで動かすことはできなかったと思います。実際、このモデルは約23 t/sで使える...しかも電源を抜いても10 t/s以上出ます!pi agent と一緒に使うのにとても良いです。
このセットアップを改善できると思うなら、ぜひもっと知りたいです...
ブログ記事で、私のローカルマクシングの全行程を こちら にまとめました。誰かの役に立つかもしれません。
TL;DR
ノートPC: Asus ROG Zephyrus G14 2020
CPU: Ryzen 7(8c 16t)@ 2900 Mhz(ブースト無効)
メモリ: 24GB DDR4-3200 RAM
GPU: RTX 2060 Max-Q 6GB VRAM
概要:
#!/bin/bash llama-server
-m ~/dev/models/Qwen3.6-35B-A3B-APEX-GGUF/Qwen3.6-35B-A3B-APEX-I-Compact.gguf
-mm ~/dev/models/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf
--no-mmproj-offload
-a Qwen3.6-35B-A3B-APEX-64k
--host 0.0.0.0 --port 8000
--fit off -fa on
--ctx-size 65536
--threads 8 --threads-batch 12
--cpu-range 0-7 --cpu-strict 1
--cpu-range-batch 0-11 --cpu-strict-batch 1
--numa isolate
--prio 2
--no-mmap --parallel 1 --jinja
--cache-type-k q8_0 --cache-type-v q8_0
--ubatch-size 1024 --batch-size 2048
--n-cpu-moe 36
--cache-reuse 256
--ctx-checkpoints 8
--metrics
--cache-ram 4096
--spec-type ngram-mod
--spec-ngram-mod-n-match 24 --spec-ngram-mod-n-min 12 --spec-ngram-mod-n-max 48 長いコンテキスト:(Tom's fork)
#!/bin/bash lm-server-tq
-m ~/dev/models/Qwen3.6-35B-A3B-APEX-GGUF/Qwen3.6-35B-A3B-APEX-I-Compact.gguf
-a Qwen3.6-35B-A3B-APEX-128k
--host 0.0.0.0 --port 8000
--fit off -fa on
--ctx-size 131072
--threads 8 --threads-batch 12
--cpu-range 0-7 --cpu-strict 1
--cpu-range-batch 0-11 --cpu-strict-batch 1
--numa isolate
--prio 2
--no-mmap --parallel 1 --jinja
--cache-type-k turbo3 --cache-type-v turbo4
--ubatch-size 1024 --batch-size 2048
--n-cpu-moe 36
--cache-reuse 256
--ctx-checkpoints 8
--metrics
--cache-ram 4096
--spec-type ngram-mod
--spec-ngram-mod-n-match 24 --spec-ngram-mod-n-min 12 --spec-ngram-mod-n-max 48 [link] [comments]




