6GB VRAMノートPCの限界に挑む：Qwen3.6-35B-A3Bをローカルで動かす

Reddit r/LocalLLaMA / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

提供者は、6GB VRAMのRTX 2060 Max-Q（Asus ROG Zephyrus G14 2020）という制約のある環境で、Qwen3.6-35B-A3Bをローカル実行する方法をまとめており、約23トークン/秒の“実用”レベルと、電源を抜いた状態でも10+トークン/秒を達成しています。
記事では、llama-server / lm-server-tqの具体的な起動コマンドに加えて、長いコンテキスト（例：提示された「Tom's fork」設定では最大128k）や、KVキャッシュ設定などの性能・メモリ制御を含む最適化パラメータが示されています。
著者は、エージェント用途でもモデルが実用的だとし、「pi agent」との利用で非常に良いと述べており、純粋な検証に留まらない使い勝手を示唆しています。
さらに、完全な“localmaxxing”の手順をブログ記事として公開し、改善案のフィードバックも募集しているため、再現可能なチューニングガイドとしての性格が強い内容です。
全体として、オープンモデルが大きく進化し、メモリが厳しいノートPCでも工夫次第で大規模LLMを動かせるようになってきた点を強調しています。

ここ数週間、私は自分のハードウェアでこのモデルを動かそうと頑張ってきました。オープンモデルがどれほど進化したのか、まだ信じられないくらいです。このサブと素晴らしい人々がいなければ、このモデルを5歳のノートPCで動かすことはできなかったと思います。実際、このモデルは約23 t/sで使える...しかも電源を抜いても10 t/s以上出ます！pi agent と一緒に使うのにとても良いです。

このセットアップを改善できると思うなら、ぜひもっと知りたいです...

ブログ記事で、私のローカルマクシングの全行程をこちらにまとめました。誰かの役に立つかもしれません。

TL;DR

ノートPC: Asus ROG Zephyrus G14 2020

CPU: Ryzen 7（8c 16t）@ 2900 Mhz（ブースト無効）

メモリ: 24GB DDR4-3200 RAM

GPU: RTX 2060 Max-Q 6GB VRAM

概要:

#!/bin/bash llama-server 
 -m ~/dev/models/Qwen3.6-35B-A3B-APEX-GGUF/Qwen3.6-35B-A3B-APEX-I-Compact.gguf 
 -mm ~/dev/models/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf 
 --no-mmproj-offload 
 -a Qwen3.6-35B-A3B-APEX-64k 
 --host 0.0.0.0 --port 8000 
 --fit off -fa on 
 --ctx-size 65536 
 --threads 8 --threads-batch 12 
 --cpu-range 0-7 --cpu-strict 1 
 --cpu-range-batch 0-11 --cpu-strict-batch 1 
 --numa isolate 
 --prio 2 
 --no-mmap --parallel 1 --jinja 
 --cache-type-k q8_0 --cache-type-v q8_0 
 --ubatch-size 1024 --batch-size 2048 
 --n-cpu-moe 36 
 --cache-reuse 256 
 --ctx-checkpoints 8 
 --metrics 
 --cache-ram 4096 
 --spec-type ngram-mod 
 --spec-ngram-mod-n-match 24 --spec-ngram-mod-n-min 12 --spec-ngram-mod-n-max 48

長いコンテキスト:（Tom's fork）

#!/bin/bash lm-server-tq 
 -m ~/dev/models/Qwen3.6-35B-A3B-APEX-GGUF/Qwen3.6-35B-A3B-APEX-I-Compact.gguf 
 -a Qwen3.6-35B-A3B-APEX-128k 
 --host 0.0.0.0 --port 8000 
 --fit off -fa on 
 --ctx-size 131072 
 --threads 8 --threads-batch 12 
 --cpu-range 0-7 --cpu-strict 1 
 --cpu-range-batch 0-11 --cpu-strict-batch 1 
 --numa isolate 
 --prio 2 
 --no-mmap --parallel 1 --jinja 
 --cache-type-k turbo3 --cache-type-v turbo4 
 --ubatch-size 1024 --batch-size 2048 
 --n-cpu-moe 36 
 --cache-reuse 256 
 --ctx-checkpoints 8 
 --metrics 
 --cache-ram 4096 
 --spec-type ngram-mod 
 --spec-ngram-mod-n-match 24 --spec-ngram-mod-n-min 12 --spec-ngram-mod-n-max 48

投稿者: /u/abhinand05
[link] [comments]

Black Hat USA

AI Business

【反応の客観視】オファー後の数字に一喜一憂しない。AIに「次の一手」を冷静に導き出させるボトルネック分析プロンプト。

note

【永久保存版】NotionAI活用術53選 ──自分・自社専用の"最強AI秘書"を育てる完全マニュアル

note

AIとはじめてみた。〜50代、資格なしの私が「魔法の杖」を手に入れるまで〜

note

文章作成AI | おじの解説 | 📗 AIを組織で回す技術 047

note

6GB VRAMノートPCの限界に挑む：Qwen3.6-35B-A3Bをローカルで動かす

要点

関連記事

Black Hat USA

【反応の客観視】オファー後の数字に一喜一憂しない。AIに「次の一手」を冷静に導き出させるボトルネック分析プロンプト。

【永久保存版】NotionAI活用術53選 ──自分・自社専用の"最強AI秘書"を育てる完全マニュアル

AIとはじめてみた。〜50代、資格なしの私が「魔法の杖」を手に入れるまで〜

文章作成AI | おじの解説 | 📗 AIを組織で回す技術 047

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

【反応の客観視】オファー後の数字に一喜一憂しない。AIに「次の一手」を冷静に導き出させるボトルネック分析プロンプト。

【永久保存版】NotionAI活用術53選 ──自分・自社専用の"最強AI秘書"を育てる完全マニュアル

AIとはじめてみた。 〜50代、資格なしの私が「魔法の杖」を手に入れるまで〜

文章作成AI | おじの解説 | 📗 AIを組織で回す技術 047

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIとはじめてみた。〜50代、資格なしの私が「魔法の杖」を手に入れるまで〜