Mixture-of-Expertsにおける最適なエキスパート・アテンション割り当て: 動的モデル設計のスケーラブルな法則

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

著者らはニューラルスケーリング則をMixture-of-Experts（MoE）モデルへ拡張し、エキスパート層とアテンション層のサブレイヤ間の計算リソースの割り当て方を検討する。
比率 r を、トークンあたりの FLOPs のうちエキスパート層に費やす割合とアテンション層に費やす割合の比として定義し、総計算量とモデルのスパース性との相互作用を分析する。
GPT風 MoE トランスフォーマーを用いた大規模な実験を通じて、最適比率 r* が総計算量とべき乗則に従い、スパーシティによって変化することを実証的に見出す。
r* の明示的な式を導出し、エキスパート・アテンション計算割り当てを正確に制御できるようにする。さらにこのアーキテクチャパラメータを取り入れることで、Chinchillaのスケーリング則を一般化する。
本研究は、固定計算予算のもとで性能を最大化する効率的なMoEモデル設計の実践的ガイドラインを提供する。

要旨: 本論文は、Mixture-of-Experts（MoE）モデルへのニューラルスケーリング則の新たな拡張を提示し、エキスパート層とアテンション層のサブレイヤ間の計算資源の最適割り当てに焦点を当てています。MoEアーキテクチャは、計算量を比例的に増やすことなくモデルの容量を拡張する効率的な手法として浮上してきたため、最適なエキスパート・アテンションの計算比率を決定することが重要になります。比率 $r$ を、トークンあたりの総 FLOPs のうち、エキスパート層に割り当てられる部分の割合として定義し、この比率が全体の計算予算およびモデルのスパース性とどう相互作用するかを調べます。GPT風のMoEトランスフォーマーを用いた大規模な実験を通じて、最適比率 $r^*$ は総計算量とべき乗則に従い、スパーシティによって変化することを経験的に見出しました。私たちの分析は $r^*$ の明示的な式を導出し、エキスパート・アテンション間の計算割り当てを正確に制御できるようにします。このアーキテクチャパラメータを取り入れることで、Chinchillaのスケーリング則を一般化し、サイズやデータを超えたMoEモデルの調整の新しい枠組みを提供します。私たちの知見は、固定された計算予算を遵守しつつ性能を最大化する、効率的なMoEモデルの設計に実践的なガイドラインを提供します。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

Mixture-of-Expertsにおける最適なエキスパート・アテンション割り当て: 動的モデル設計のスケーラブルな法則

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer