コーディングエージェント用にローカルで Qwen3.6-35B-A3B を動かす:私のセットアップと動作設定

Reddit r/LocalLLaMA / 2026/4/22

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この記事では、llama.cpp をバックエンドにして、MacBook Pro(Apple M2 Max)上で Qwen3.6-35B-A3B モデルをローカル実行する手順が紹介されています。
  • pi コーディングエージェントがローカルの llama-server に OpenAI 互換 API で接続する方法と、~/.pi/agent/models.json の具体的な設定内容が説明されています。
  • llama-server の起動コマンドがそのまま提示され、コンテキスト長(128K)、出力トークン上限(32K)、およびサンプリング制御(temperature、top-p、top-k、繰り返し/存在ペナルティなど)の主要パラメータが解説されています。
  • Hugging Face の GGUF 量子化(UD-Q5_K_XL)を用いて品質とメモリ/ディスク使用量のバランスを取る工夫(約19GB)が強調されています。
  • 全体として、ローカルホストした Qwen モデルを LLM 駆動のコーディングエージェントで使いたい開発者に向けた「動作する設定例」として機能します。

ハードウェア

コンポーネント 詳細
マシン MacBook Pro (Mac14,6)
チップ Apple M2 Max — 12コアCPU(8P + 4E)
メモリ 64 GB ユニファイドメモリ
ストレージ 512 GB SSD
OS macOS 15.7 (Sequoia)

AIエージェントのセットアップ

主な開発支援アシスタントとして、pi coding agent を使っています。これは、llama.cpp 経由でローカルモデルに接続するローカルファーストのAIコーディングエージェントです。

モデル: Qwen3.6-35B-A3B(llama.cpp で実行)

pi が llama-server に接続する方法

pi エージェントは、OpenAI互換のAPI経由で llama-server と通信します。設定は ~/.pi/agent/models.json にあります:

{ "providers": { "llama-cpp": { "baseUrl": "http://127.0.0.1:8080/v1", "api": "openai-completions", "apiKey": "ignored", "models": [{ "id": "Qwen3.6-35B-A3B", "contextWindow": 131072, "maxTokens": 32768 }] } } } 

コマンド

llama-server \ -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q5_K_XL \ -c 131072 \ -n 32768 \ --no-context-shift \ --temp 0.6 \ --top-p 0.95 \ --top-k 20 \ --repeat-penalty 1.00 \ --presence-penalty 0.00 \ --chat-template-kwargs '{"preserve_thinking": true}' \ --batch-size 4096 \ --ubatch-size 4096 

パラメータの内訳

フラグ 理由
-hf unsloth/...:UD-Q5_K_XL HuggingFace のモデルリポジトリで、unsloth のカスタム UD 量子化を使用 — 品質/サイズのバランスが良い(約 19 GB)
-c 131072 128K コンテキスト このモデルは非常に大きなコンテキストウィンドウに対応しています。長いドキュメントや長めの会話のために高く設定します
-n 32768 32K 出力トークン 生成上限に当たらず、長い1ターン生成を可能にします
--no-context-shift Off 生成中のコンテキストシフトを防ぎ、長い応答を一貫したものに保ちます
--chat-template-kwargs preserve_thinking: true モデルの推論/思考ブロックを出力にそのまま保持します
--batch-size 4096 4096 論理バッチサイズ — 大きいほどプロンプト処理が速くなり、より多くのメモリが必要になります
--ubatch-size 4096 4096 物理バッチサイズ — 一貫性のために論理バッチと同じに保ちます

サンプリングパラメータ

サンプリングパラメータ(--temp, --top-p, --top-k, --repeat-penalty, --presence-penalty)は、unsloth の Qwen3.6 推奨設定 からそのまま取っています。モデルの作成者による公式な推奨であり、そのまま使っても良い結果が得られるため、これらは指定通りに使用しています。

投稿者 /u/NoConcert8847
[リンク] [コメント]