6GB VRAMノートPCの限界に挑む:Qwen3.6-35B-A3Bをローカルで動かす

Reddit r/LocalLLaMA / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • 提供者は、6GB VRAMのRTX 2060 Max-Q(Asus ROG Zephyrus G14 2020)という制約のある環境で、Qwen3.6-35B-A3Bをローカル実行する方法をまとめており、約23トークン/秒の“実用”レベルと、電源を抜いた状態でも10+トークン/秒を達成しています。
  • 記事では、llama-server / lm-server-tqの具体的な起動コマンドに加えて、長いコンテキスト(例:提示された「Tom's fork」設定では最大128k)や、KVキャッシュ設定などの性能・メモリ制御を含む最適化パラメータが示されています。
  • 著者は、エージェント用途でもモデルが実用的だとし、「pi agent」との利用で非常に良いと述べており、純粋な検証に留まらない使い勝手を示唆しています。
  • さらに、完全な“localmaxxing”の手順をブログ記事として公開し、改善案のフィードバックも募集しているため、再現可能なチューニングガイドとしての性格が強い内容です。
  • 全体として、オープンモデルが大きく進化し、メモリが厳しいノートPCでも工夫次第で大規模LLMを動かせるようになってきた点を強調しています。

ここ数週間、私は自分のハードウェアでこのモデルを動かそうと頑張ってきました。オープンモデルがどれほど進化したのか、まだ信じられないくらいです。このサブと素晴らしい人々がいなければ、このモデルを5歳のノートPCで動かすことはできなかったと思います。実際、このモデルは約23 t/sで使える...しかも電源を抜いても10 t/s以上出ます!pi agent と一緒に使うのにとても良いです。

このセットアップを改善できると思うなら、ぜひもっと知りたいです...

ブログ記事で、私のローカルマクシングの全行程を こちら にまとめました。誰かの役に立つかもしれません。

TL;DR

ノートPC: Asus ROG Zephyrus G14 2020

CPU: Ryzen 7(8c 16t)@ 2900 Mhz(ブースト無効)

メモリ: 24GB DDR4-3200 RAM

GPU: RTX 2060 Max-Q 6GB VRAM

概要:

#!/bin/bash llama-server 
 -m ~/dev/models/Qwen3.6-35B-A3B-APEX-GGUF/Qwen3.6-35B-A3B-APEX-I-Compact.gguf 
 -mm ~/dev/models/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf 
 --no-mmproj-offload 
 -a Qwen3.6-35B-A3B-APEX-64k 
 --host 0.0.0.0 --port 8000 
 --fit off -fa on 
 --ctx-size 65536 
 --threads 8 --threads-batch 12 
 --cpu-range 0-7 --cpu-strict 1 
 --cpu-range-batch 0-11 --cpu-strict-batch 1 
 --numa isolate 
 --prio 2 
 --no-mmap --parallel 1 --jinja 
 --cache-type-k q8_0 --cache-type-v q8_0 
 --ubatch-size 1024 --batch-size 2048 
 --n-cpu-moe 36 
 --cache-reuse 256 
 --ctx-checkpoints 8 
 --metrics 
 --cache-ram 4096 
 --spec-type ngram-mod 
 --spec-ngram-mod-n-match 24 --spec-ngram-mod-n-min 12 --spec-ngram-mod-n-max 48 

長いコンテキスト:(Tom's fork)

#!/bin/bash lm-server-tq 
 -m ~/dev/models/Qwen3.6-35B-A3B-APEX-GGUF/Qwen3.6-35B-A3B-APEX-I-Compact.gguf 
 -a Qwen3.6-35B-A3B-APEX-128k 
 --host 0.0.0.0 --port 8000 
 --fit off -fa on 
 --ctx-size 131072 
 --threads 8 --threads-batch 12 
 --cpu-range 0-7 --cpu-strict 1 
 --cpu-range-batch 0-11 --cpu-strict-batch 1 
 --numa isolate 
 --prio 2 
 --no-mmap --parallel 1 --jinja 
 --cache-type-k turbo3 --cache-type-v turbo4 
 --ubatch-size 1024 --batch-size 2048 
 --n-cpu-moe 36 
 --cache-reuse 256 
 --ctx-checkpoints 8 
 --metrics 
 --cache-ram 4096 
 --spec-type ngram-mod 
 --spec-ngram-mod-n-match 24 --spec-ngram-mod-n-min 12 --spec-ngram-mod-n-max 48 
投稿者: /u/abhinand05
[link] [comments]