高密度モデルのほうがコーディングに向いているなら、なぜQwen-CodersはMoEなのか?

Reddit r/LocalLLaMA / 2026/4/12

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 著者は、(例えば30B MoEやその後の80B sparse MoEのような)Qwenのコーディングに特化したモデルがMoEを採用している理由を疑問に思っている。最近の密な(dense)モデルのほうが、精度重視のコーディング課題でより良い成績を収めると報告されているにもかかわらずである。
  • そのうえで、MoEの「エキスパート(experts)」は、単に別々の言語/構文の専門家ではないとすると、何に特化しているのか、また27Bや9Bといった小型の密なベースラインを使わなかったのはどのようなアーキテクチャ上の判断によるものなのかを問うている。
  • 本記事では、MoEを密なモデルよりも選ぶ主な要因として、推論速度とスループットのトレードオフ(パイプライン並列性やトークン生成レート)が大きいのではないか、という仮説を立てている。
  • 著者はさらに、(量子化と妥当なコンテキスト長を前提に)限られたVRAM環境で効率よく動かせる小型のコーディングモデル(例えば約14B)が公開されなかったことに失望している。

皆さん、こんにちは。

ここを2年以上読んでいますが、ついに答えが見つからない疑問があります。

Qwen 3.5 27B と Gemma 4 31B は、密な(dense)モデルがより正確に、そして一般に高い精度を必要とするタスクで大きく成果を上げる、という最近の代表的な例です。そこでは、膨大な知識が最優先ではありません。そこで、私は疑問に思っています。Qwen(コーディング専用モデルの開発者として唯一知られている存在)が、自分たちが コーディング モデルとして微調整するのに適していると考え、なぜ 30B MoE、さらにその後の 80B A3B の超疎(super-sparse)MoE を選んだのでしょうか? また、これらのモデルはエキスパート(専門家)を何に使っているのでしょう。もちろん、各エキスパートがそれぞれ独自の言語/文法を担当しているとは思えません...

例えば、なぜ 27B には進まなかったのでしょうか? あるいは 9B の密モデルでも。

推測するしかありませんが、推論速度の問題だと思います。PP と TG は、確実に密なモデルではもっと遅いはずです。さらに、コンテキストを十分に確保しつつ 16GB VRAM で動かせる 14B の後継版をリリースしなかったことが、なおさら残念です。

何か洞察があればぜひ教えてください。

submitted by /u/LocalLLaMa_reader
[リンク] [コメント]