Qwen 3.5: Denseなモデルにするべきか、それとも MoE を拡大するべきか？

Reddit r/LocalLLaMA / 2026/3/18

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

この議論は、MoEを約1200億パラメータまで密にすることでAIモデルをスケールさせるべきか、それともメモリ帯域幅やVRAMをアップグレードして推論を高速化するべきかという点に焦点を当てています。
著者は現在、Qwen 3.5 35B-a3b および 27B バリアントを、約40 GB の VRAM を搭載したデュアル AMD 7900XT のセットアップで実行していますが、日常的なコーディング作業には望ましいほどのパフォーマンスを得られていないと感じています。
アップグレードの選択肢には、非常に大きな MoE モデルをサポートするための memory-over-bandwidth 路線（64 GB VRAM のデュアル AMD 9700 AI Pro、帯域幅 640 GB/s）と、27B モデルを高速化するための bandwidth-over-memory 路線（単一の RTX5090、約1800 GB/s）があります。
彼らは、どの道が自分のワークロードに対して現実世界でより大きな効果をもたらすのか、実用的な助言を求めており、密度の高い MoE スケーリングと、より高速でコンパクトなモデルの間で天秤を取っています。

デュアル AMAd 7900XT を搭載したワークステーションがあるので、40GB の VRAM を 800GB/s で動かし、qwen3.5 35b-a3b、qwen-coder-next の3ビット版、そして qwen3.5 27b のようなものを、遅く動かします。

27b が大好きで、日常のコーディングの購読を代替できるくらいほぼ十分です（私がコードするものは私にとって価値がありますが、極端に複雑ではありません）。ただし、速度は驚くべきものではありません… ここでは二つの考えがあります。もっと大きなものを狙い、122b の qwen（NVIDIA や mistral のモデルも含む…）に手を出すべきか、あるいは 27b を高速化するべきか、私のアップグレードの道筋は以下です：

帯域よりもメモリ重視: デュアル AMD 9700 ai pro、64GB VRAM と 640 GB/s の帯域。これらの ~120b MoE モデルの3ビット版に最適です

帯域優先: 1枚の RTX5090 で 1800GB/s の帯域、これにより高速な qwen3.5 27b になるでしょう

何かアドバイスはありますか？

投稿者 /u/Alarming-Ad8154
[リンク] [コメント]

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

MCPとは何ですか？

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

Qwen 3.5: Denseなモデルにするべきか、それとも MoE を拡大するべきか？

要点

関連記事

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

MCPとは何ですか？

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer