AI Navigate

Qwen 3.5: Denseなモデルにするべきか、それとも MoE を拡大するべきか?

Reddit r/LocalLLaMA / 2026/3/18

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • この議論は、MoEを約1200億パラメータまで密にすることでAIモデルをスケールさせるべきか、それともメモリ帯域幅やVRAMをアップグレードして推論を高速化するべきかという点に焦点を当てています。
  • 著者は現在、Qwen 3.5 35B-a3b および 27B バリアントを、約40 GB の VRAM を搭載したデュアル AMD 7900XT のセットアップで実行していますが、日常的なコーディング作業には望ましいほどのパフォーマンスを得られていないと感じています。
  • アップグレードの選択肢には、非常に大きな MoE モデルをサポートするための memory-over-bandwidth 路線(64 GB VRAM のデュアル AMD 9700 AI Pro、帯域幅 640 GB/s)と、27B モデルを高速化するための bandwidth-over-memory 路線(単一の RTX5090、約1800 GB/s)があります。
  • 彼らは、どの道が自分のワークロードに対して現実世界でより大きな効果をもたらすのか、実用的な助言を求めており、密度の高い MoE スケーリングと、より高速でコンパクトなモデルの間で天秤を取っています。

デュアル AMAd 7900XT を搭載したワークステーションがあるので、40GB の VRAM を 800GB/s で動かし、qwen3.5 35b-a3b、qwen-coder-next の3ビット版、そして qwen3.5 27b のようなものを、遅く動かします。

27b が大好きで、日常のコーディングの購読を代替できるくらいほぼ十分です(私がコードするものは私にとって価値がありますが、極端に複雑ではありません)。ただし、速度は驚くべきものではありません… ここでは二つの考えがあります。もっと大きなものを狙い、122b の qwen(NVIDIA や mistral のモデルも含む…)に手を出すべきか、あるいは 27b を高速化するべきか、私のアップグレードの道筋は以下です:

帯域よりもメモリ重視: デュアル AMD 9700 ai pro、64GB VRAM と 640 GB/s の帯域。これらの ~120b MoE モデルの3ビット版に最適です

帯域優先: 1枚の RTX5090 で 1800GB/s の帯域、これにより高速な qwen3.5 27b になるでしょう

何かアドバイスはありますか?

投稿者 /u/Alarming-Ad8154
[リンク] [コメント]