Mixture-of-Experts（MoE）Transformerにおける一般化とスケーリング則

arXiv cs.LG / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Mixture-of-Experts（MoE）Transformerに対して、入力ごとに活性化する容量とルーティングの組合せ（combinatorics）を分離することで、一般化とニューラルなスケーリングに関する理論を構築する。
固定したルーティングパターンを条件付けし、ユニオンバウンドを用いることで、supノルムのカバー数に対する境界を導出し、MoE固有のルーティングに伴うオーバーヘッドを考慮した一般化保証を得る。
多様体データモデルと滑らかな目的関数の仮定（$C^\beta$）を用い、活性化パラメータを適切に含めた上で、密なネットワークと同様の形で近似–推定（approximation–estimation）のトレードオフを特徴付ける。
MoEに対する構成的な近似結果を証明し、どのボトルネックが支配的かに応じて、活性化容量を増やす、あるいはより多くのエキスパートを追加することで誤差が改善し得ることを示す。
著者らは、この理論をモデルサイズ、データサイズ、計算量に関するニューラル・スケーリング則へと翻訳し、最悪ケースの統計的保証によって裏付けられるスケーリング挙動と、データ依存のルーティングや最適化効果に依存するスケーリング挙動を明確化する。

要約: 本論文では、Mixture-of-Experts（MoE）Transformer に対する一般化とスケーリングの理論を構築し、入力ごとの
\emph{アクティブ} 容量とルーティングの組合せ論（combinatorics）をきれいに分離する。固定されたルーティング・パターンに条件付けし、それらに対して和を取る（union-bound）ことで、シュープ規範（sup-norm）の被覆数に関する上界を導き、そのメトリックエントロピーはアクティブなパラメータ予算に応じてスケールし、さらに MoE 特有のルーティング・オーバーヘッドを伴う。二乗損失に対する標準的な ERM（経験リスク最小化）の解析と組み合わせることで、 $d$ 次元の多様体データモデルおよび $C^\beta$ なターゲットの下での一般化境界を得る。これにより、密なネットワークの場合と同様に、近似と推定のトレードオフが、アクティブなパラメータを適切に考慮すれば再現されることを示す。さらに、MoE アーキテクチャに対する構成的な近似定理を証明し、近似構成の下では、支配的なボトルネックに応じて、アクティブ容量をスケールすること、あるいはエキスパートの数を増やすことのいずれによっても誤差が減少し得ることを示す。これらの結果から、モデルサイズ、データサイズ、そして計算（compute）最適なトレードオフに関するニューラル・スケーリング法則を導出する。全体として、本研究は MoE スケーリングを考察するための、明確で透明な統計的な基準点を提供し、どの挙動が最悪ケースの理論によって保証されるのか、そしてどの挙動がデータに依存したルーティング構造や最適化ダイナミクスから生じる必要があるのかを明確化する。

もるこ🍒🐈スマホで1日10分副業🎵AI（ChatGPT）活用で月収10万円を目指す！

note

現状AIはどれくらいの速度で進化しているのか

note

Copilotと物語を作ってみた #225 幼馴染は今日も「あなたの子を身籠ったの」と言う

note

『女性の社会進出と少子化』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その陸拾貳

note

たとえ自分が損をしなくても、AIエージェントは協力を渋る？

note

Mixture-of-Experts（MoE）Transformerにおける一般化とスケーリング則

要点

関連記事

もるこ🍒🐈スマホで1日10分副業🎵AI（ChatGPT）活用で月収10万円を目指す！

現状AIはどれくらいの速度で進化しているのか

Copilotと物語を作ってみた #225 幼馴染は今日も「あなたの子を身籠ったの」と言う

『女性の社会進出と少子化』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その陸拾貳

たとえ自分が損をしなくても、AIエージェントは協力を渋る？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

もるこ🍒🐈スマホで1日10分副業🎵AI（ChatGPT）活用で月収10万円を目指す！

現状AIはどれくらいの速度で進化しているのか

Copilotと物語を作ってみた #225 幼馴染は今日も「あなたの子を身籠ったの」と言う

『女性の社会進出と少子化』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その陸拾貳

たとえ自分が損をしなくても、AIエージェントは協力を渋る？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『女性の社会進出と少子化』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その陸拾貳