ホームラボを3台のモデルから1台の122B MoEに統合——すべてをベンチマークして分かったこと

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

要点

著者は、Strix HaloのホームラボにおけるLLMデプロイを、3つの別々のテキスト/ビジョンモデル（合計約44GB）から、ルーティングを簡素化しつつ性能を許容範囲に保ちながら、1つの122B MoEモデルと別の8Bビジョンモデルへ統合する。

Strix Halo のセットアップ（Ryzen AI MAX+ 395、128GB RAM、Vulkan/RADV 経由で 96 GiB の共有 GPU メモリ）で、Proxmox 上に LXC コンテナと llama-server を使ってローカル LLM を回していました。過剰なベンチマークをしたあと、最終的にどこに着地したかを共有したかったのです。

旧セットアップ（3 テキストモデル）

- GLM-4.7-Flash: 30B MoE、アクティブ 3B、18GB、72 tok/s — 毎日のドライバー、メール

- Qwen3.5-35B-A3B: 35B MoE、アクティブ 3B、20GB、55 tok/s — 推論/コーディング

- Qwen3-VL-8B: 8B 緻密（dense）、6GB、39 tok/s — 画像/カメラ

合計 ~44GB。動いてはいたのですが、3 つのモデルをルーティングするのが面倒でした。

新セットアップ（1 モデル）

7 モデルの一騎打ち、45 テスト、Claude Opus が判定:

- Qwen3.5-122B-A10B UD-IQ3_S（アクティブ 10B、44GB）— 27.4 tok/s、440/500

- VL-8B は別枠のまま（カメラ競合のため）

- RAG 用の Nomic-embed

合計 ~57GB、ヘッドルーム 39GB。

何を動かしているか：

メールの分類（15 分ごと cron、<2s）、フードアプリ（レシピ、食事プラン、準備の Gantt チャート）、ファイナンスダッシュボード（税、ポートフォリオ、支出）、カメラマン検出、Open WebUI + SearXNG、OpenCode、OpenClaw エージェント

意外だった発見：

- IQ3 は Q4_K_M と同一スコア（440 対 438）で、しかも VRAM は半分、さらに高速

- GLM Flash は 8 件の空の応答 — thinking が max_tokens を食ってしまっていた

- 緻密 27B は Vulkan で 8 tok/s。MoE が正解。

- 122B は並行処理に強い — 長い生成中でもメールは <2s

- Unsloth の Dynamic quant は Strix Halo でも問題なく動く

質問：

Nemotron や他の最近のモデルも見るべきでしょうか？
Strix Halo / 高メモリ Vulkan で、似たようなモデル構成を動かしている人はいますか？
IQ3 は本当に長期的に十分なのでしょうか？

submitted by /u/MBAThrowawayFruit
[link] [comments]

「船酔いさせる本」予定を早め先行リリース poevel L'automne à Arles 《アルルの秋》入れ子の吹雪が舞う ! Gemini に読ませたら !

note

amiami_@Japan

note

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

note

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する

note

Geminiを非表示にして快適な検索環境を取り戻す：PC・スマホ・Workspace別の消し方

note

ホームラボを3台のモデルから1台の122B MoEに統合——すべてをベンチマークして分かったこと

要点

関連記事

「船酔いさせる本」予定を早め先行リリース poevel L'automne à Arles 《アルルの秋》入れ子の吹雪が舞う ! Gemini に読ませたら !

amiami_@Japan

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する

Geminiを非表示にして快適な検索環境を取り戻す：PC・スマホ・Workspace別の消し方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

「船酔いさせる本」予定を早め先行リリース poevel L'automne à Arles 《アルルの秋》入れ子の吹雪が舞う ! Gemini に読ませたら !

amiami_@Japan

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する​

Geminiを非表示にして快適な検索環境を取り戻す：PC・スマホ・Workspace別の消し方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する