皆さん、こんにちは。
ここを2年以上読んでいますが、ついに答えが見つからない疑問があります。
Qwen 3.5 27B と Gemma 4 31B は、密な(dense)モデルがより正確に、そして一般に高い精度を必要とするタスクで大きく成果を上げる、という最近の代表的な例です。そこでは、膨大な知識が最優先ではありません。そこで、私は疑問に思っています。Qwen(コーディング専用モデルの開発者として唯一知られている存在)が、自分たちが コーディング モデルとして微調整するのに適していると考え、なぜ 30B MoE、さらにその後の 80B A3B の超疎(super-sparse)MoE を選んだのでしょうか? また、これらのモデルはエキスパート(専門家)を何に使っているのでしょう。もちろん、各エキスパートがそれぞれ独自の言語/文法を担当しているとは思えません...
例えば、なぜ 27B には進まなかったのでしょうか? あるいは 9B の密モデルでも。
推測するしかありませんが、推論速度の問題だと思います。PP と TG は、確実に密なモデルではもっと遅いはずです。さらに、コンテキストを十分に確保しつつ 16GB VRAM で動かせる 14B の後継版をリリースしなかったことが、なおさら残念です。
何か洞察があればぜひ教えてください。
[リンク] [コメント]




