なぜMoEモデルは約10Bのアクティブパラメータに収束し続けるのか

Reddit r/LocalLLaMA / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この記事は、Mixture-of-Experts（MoE）モデルの多くが、総モデルサイズやエキスパート数が大きく異なっていても、概ね~10Bのアクティブパラメータに収束することを主張する。
それは学習コストの経験則として C ≈ 6 × N_active × T を提示し、トークン予算に合わせてスケールする際に、経済性の観点から~10Bのアクティブが実用上の“適切なスイートスポット”になると述べている。
MoE構成（例：10Bアクティブで15Tトークン）と密な70Bモデルの計算量を比較し、MoEは計算資源の一部で同等の成果を得られる可能性があるとしている。
アクティブパラメータ数が固定されたままエキスパート数が増えた場合に、推論時のメモリがどのようにスケールするのかという未解決の問いを提起している。
KVキャッシュが、約32kのコンテキスト長を超える領域では推論メモリの大部分を支配する可能性があり、アクティブパラメータを増やさずにエキスパートを追加する恩恵が制限されるかもしれないと示唆している。

興味深いパターンです。総サイズが大きく異なるにもかかわらず、最近の多くのMoEモデルはアクティブなパラメータが約10Bのあたりに収束しています。Qwen 3.5 122Bは10Bをアクティブ化します。MiniMax M2.7は合計230Bだが、Top 2ルーティングによりアクティブは10Bです。

学習コストは C ≈ 6 × N_active × T に比例してスケールします。アクティブ10Bで15Tトークンなら、~9e23 FLOPsになり、同等のデータに対する70Bの密モデルの約1/7です。経済性が実質的にこの収束を強制しています。

専門家（エキスパート）の数が増えてもアクティブなパラメータが固定されたままの場合、実際の推論時のメモリスケーリングを誰かが測定したことはありますか？KVキャッシュは、32kコンテキスト以降は支配的に見えます。