興味深いパターンです。総サイズが大きく異なるにもかかわらず、最近の多くのMoEモデルはアクティブなパラメータが約10Bのあたりに収束しています。Qwen 3.5 122Bは10Bをアクティブ化します。MiniMax M2.7は合計230Bだが、Top 2ルーティングによりアクティブは10Bです。
学習コストは C ≈ 6 × N_active × T に比例してスケールします。アクティブ10Bで15Tトークンなら、~9e23 FLOPsになり、同等のデータに対する70Bの密モデルの約1/7です。経済性が実質的にこの収束を強制しています。
専門家(エキスパート)の数が増えてもアクティブなパラメータが固定されたままの場合、実際の推論時のメモリスケーリングを誰かが測定したことはありますか?KVキャッシュは、32kコンテキスト以降は支配的に見えます。
[リンク] [コメント]




