ハードウェア
| コンポーネント | 詳細 |
|---|---|
| マシン | MacBook Pro (Mac14,6) |
| チップ | Apple M2 Max — 12コアCPU(8P + 4E) |
| メモリ | 64 GB ユニファイドメモリ |
| ストレージ | 512 GB SSD |
| OS | macOS 15.7 (Sequoia) |
AIエージェントのセットアップ
主な開発支援アシスタントとして、pi coding agent を使っています。これは、llama.cpp 経由でローカルモデルに接続するローカルファーストのAIコーディングエージェントです。
モデル: Qwen3.6-35B-A3B(llama.cpp で実行)
pi が llama-server に接続する方法
pi エージェントは、OpenAI互換のAPI経由で llama-server と通信します。設定は ~/.pi/agent/models.json にあります:
{ "providers": { "llama-cpp": { "baseUrl": "http://127.0.0.1:8080/v1", "api": "openai-completions", "apiKey": "ignored", "models": [{ "id": "Qwen3.6-35B-A3B", "contextWindow": 131072, "maxTokens": 32768 }] } } } コマンド
llama-server \ -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q5_K_XL \ -c 131072 \ -n 32768 \ --no-context-shift \ --temp 0.6 \ --top-p 0.95 \ --top-k 20 \ --repeat-penalty 1.00 \ --presence-penalty 0.00 \ --chat-template-kwargs '{"preserve_thinking": true}' \ --batch-size 4096 \ --ubatch-size 4096 パラメータの内訳
| フラグ | 値 | 理由 |
|---|---|---|
-hf | unsloth/...:UD-Q5_K_XL | HuggingFace のモデルリポジトリで、unsloth のカスタム UD 量子化を使用 — 品質/サイズのバランスが良い(約 19 GB) |
-c 131072 | 128K コンテキスト | このモデルは非常に大きなコンテキストウィンドウに対応しています。長いドキュメントや長めの会話のために高く設定します |
-n 32768 | 32K 出力トークン | 生成上限に当たらず、長い1ターン生成を可能にします |
--no-context-shift | Off | 生成中のコンテキストシフトを防ぎ、長い応答を一貫したものに保ちます |
--chat-template-kwargs | preserve_thinking: true | モデルの推論/思考ブロックを出力にそのまま保持します |
--batch-size 4096 | 4096 | 論理バッチサイズ — 大きいほどプロンプト処理が速くなり、より多くのメモリが必要になります |
--ubatch-size 4096 | 4096 | 物理バッチサイズ — 一貫性のために論理バッチと同じに保ちます |
サンプリングパラメータ
サンプリングパラメータ(--temp, --top-p, --top-k, --repeat-penalty, --presence-penalty)は、unsloth の Qwen3.6 推奨設定 からそのまま取っています。モデルの作成者による公式な推奨であり、そのまま使っても良い結果が得られるため、これらは指定通りに使用しています。
[リンク] [コメント]



