Strix Halo のセットアップ(Ryzen AI MAX+ 395、128GB RAM、Vulkan/RADV 経由で 96 GiB の共有 GPU メモリ)で、Proxmox 上に LXC コンテナと llama-server を使ってローカル LLM を回していました。過剰なベンチマークをしたあと、最終的にどこに着地したかを共有したかったのです。
旧セットアップ(3 テキストモデル)
- GLM-4.7-Flash: 30B MoE、アクティブ 3B、18GB、72 tok/s — 毎日のドライバー、メール
- Qwen3.5-35B-A3B: 35B MoE、アクティブ 3B、20GB、55 tok/s — 推論/コーディング
- Qwen3-VL-8B: 8B 緻密(dense)、6GB、39 tok/s — 画像/カメラ
合計 ~44GB。動いてはいたのですが、3 つのモデルをルーティングするのが面倒でした。
新セットアップ(1 モデル)
7 モデルの一騎打ち、45 テスト、Claude Opus が判定:
- Qwen3.5-122B-A10B UD-IQ3_S(アクティブ 10B、44GB)— 27.4 tok/s、440/500
- VL-8B は別枠のまま(カメラ競合のため)
- RAG 用の Nomic-embed
合計 ~57GB、ヘッドルーム 39GB。
何を動かしているか:
メールの分類(15 分ごと cron、<2s)、フードアプリ(レシピ、食事プラン、準備の Gantt チャート)、ファイナンスダッシュボード(税、ポートフォリオ、支出)、カメラマン検出、Open WebUI + SearXNG、OpenCode、OpenClaw エージェント
意外だった発見:
- IQ3 は Q4_K_M と同一スコア(440 対 438)で、しかも VRAM は半分、さらに高速
- GLM Flash は 8 件の空の応答 — thinking が max_tokens を食ってしまっていた
- 緻密 27B は Vulkan で 8 tok/s。MoE が正解。
- 122B は並行処理に強い — 長い生成中でもメールは <2s
- Unsloth の Dynamic quant は Strix Halo でも問題なく動く
質問:
Nemotron や他の最近のモデルも見るべきでしょうか?
Strix Halo / 高メモリ Vulkan で、似たようなモデル構成を動かしている人はいますか?
IQ3 は本当に長期的に十分なのでしょうか?
[link] [comments]



