ホームラボを3台のモデルから1台の122B MoEに統合——すべてをベンチマークして分かったこと

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • 著者は、Strix HaloのホームラボにおけるLLMデプロイを、3つの別々のテキスト/ビジョンモデル(合計約44GB)から、ルーティングを簡素化しつつ性能を許容範囲に保ちながら、1つの122B MoEモデルと別の8Bビジョンモデルへ統合する。

Strix Halo のセットアップ(Ryzen AI MAX+ 395、128GB RAM、Vulkan/RADV 経由で 96 GiB の共有 GPU メモリ)で、Proxmox 上に LXC コンテナと llama-server を使ってローカル LLM を回していました。過剰なベンチマークをしたあと、最終的にどこに着地したかを共有したかったのです。

旧セットアップ(3 テキストモデル)

- GLM-4.7-Flash: 30B MoE、アクティブ 3B、18GB、72 tok/s — 毎日のドライバー、メール

- Qwen3.5-35B-A3B: 35B MoE、アクティブ 3B、20GB、55 tok/s — 推論/コーディング

- Qwen3-VL-8B: 8B 緻密(dense)、6GB、39 tok/s — 画像/カメラ

合計 ~44GB。動いてはいたのですが、3 つのモデルをルーティングするのが面倒でした。

新セットアップ(1 モデル)

7 モデルの一騎打ち、45 テスト、Claude Opus が判定:

- Qwen3.5-122B-A10B UD-IQ3_S(アクティブ 10B、44GB)— 27.4 tok/s、440/500

- VL-8B は別枠のまま(カメラ競合のため)

- RAG 用の Nomic-embed

合計 ~57GB、ヘッドルーム 39GB。

何を動かしているか:

メールの分類(15 分ごと cron、<2s)、フードアプリ(レシピ、食事プラン、準備の Gantt チャート)、ファイナンスダッシュボード(税、ポートフォリオ、支出)、カメラマン検出、Open WebUI + SearXNG、OpenCode、OpenClaw エージェント

意外だった発見:

- IQ3 は Q4_K_M と同一スコア(440 対 438)で、しかも VRAM は半分、さらに高速

- GLM Flash は 8 件の空の応答 — thinking が max_tokens を食ってしまっていた

- 緻密 27B は Vulkan で 8 tok/s。MoE が正解。

- 122B は並行処理に強い — 長い生成中でもメールは <2s

- Unsloth の Dynamic quant は Strix Halo でも問題なく動く

質問:

  1. Nemotron や他の最近のモデルも見るべきでしょうか?

  2. Strix Halo / 高メモリ Vulkan で、似たようなモデル構成を動かしている人はいますか?

  3. IQ3 は本当に長期的に十分なのでしょうか?

submitted by /u/MBAThrowawayFruit
[link] [comments]