訓練途中で推論コストを増やさずにMoEの専門家容量を拡張する「エキスパート・アップサイクリング」(7B→13B、GPU時間約32%削減)

Reddit r/LocalLLaMA / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • このプレプリントは、「エキスパート・アップサイクリング」と呼ばれる、既存のエキスパートを複製し、ルータのレプリカに小さなノイズを加えることで学習途中にMixture-of-Experts(MoE)の容量を増やす手法を提案している。
  • Top-Kルーティングを固定することで、総エキスパート数が増えても(例:32→64専門家で7B→13B)1トークンあたりのFLOPsと推論コストを維持できる。
  • 損失を伴わないロードバランシングにより、すべての専門家レプリカが勾配信号を受け取れるため、ルーティングの崩壊を防ぎ、複製された専門家が役割分担していく。
  • Llama 4に近いインタリーブドMoEでの実験では、検証損失と11の下流ベンチマークにおける精度が、より大きな固定エキスパートモデルを最初から訓練した場合とほぼ同等である一方、GPU時間は約32%削減できた(途中チェックポイントが既にある場合は約67%)。
  • さらに、256専門家かつTop-8のような大規模なフルMoE設定でも一般化できると報告しており、論文とオープンソースコードへのリンクも提示されている。
Expert Upcycling: 推論コストを増やさずに訓練途中でMoE容量を拡張(7B→13B、~32% GPU時間節約)

著者です。最近リリースしたプレプリントを共有します。改訂する前に、このコミュニティからのフィードバックを積極的に募っています。

動機。 大規模なMoEをスクラッチから訓練するのは高コストです。アクティブになるのがトークンごとに少数であっても、すべてのエキスパートの重み、勾配、オプティマイザ状態はアクセラレータのメモリに保持されなければなりません。また、all-to-all通信は、標準的なGPUクラスタではステップ時間の45〜50%を消費し得ます。これらのコストはエキスパート総数に比例して増大しますが、品質をFLOPあたりで高めるためには活性化比率を下げる(固定されたアクティブパラメータに対してより多くのエキスパートを使う)というスケーリング則とは緊張関係にあります。

方法。 私たちはexpert upcycling(エキスパートのアップサイクル)を提案します。訓練済みのEエキスパートMoEがあるとします。既存のエキスパートを複製し、複製側のルータに小さなバイアスノイズを加えることで、訓練の途中でmEエキスパートへと拡張します。Top-Kルーティングは固定するため、トークンあたりのFLOPsおよび推論コストは変わりません。その後の継続的な事前学習によって、複製されたエキスパート間の対称性が破れ、専門化が進みます。重要な実現要因は、損失を増やさないロードバランシングで、すべてのレプリカが勾配シグナルを確実に受け取り、ルーティングの崩壊(collapse)を防ぎます。

結果。 7B→13BのインタリーブMoE(32→64エキスパート、Top-2、Llama 4に類似したアーキテクチャ)で:

  • 検証損失:1.263(upcycled) vs. 1.267(固定-64をスクラッチで訓練)
  • 11個の下流ベンチマークにおける平均精度:56.4 vs. 56.7
  • GPU時間:64エキスパートモデルをスクラッチで訓練する場合に比べて約32%削減
  • 32エキスパートのチェックポイントがすでに存在する「既に投下したコスト(sunk-cost)条件」では約67%削減

さらに、256エキスパートの完全なMoEおよびTop-8ルーティング(DeepSeek-V3、Kimi K2、GLM-4.5の構成に合わせたもの)でも検証し、インタリーブ型アーキテクチャを超えて手法が一般化することを示しています。

論文:https://huggingface.co/papers/2604.19835

コードと訓練設定:github.com/amazon-science/expert-upcycling

方法、アブレーション(移行タイミングと複製戦略の実用的なレシピを含む)、理論的な枠組み、または訓練セットアップについて詳しく議論することに前向きです。さらに、私たちが十分にストレステストできていないかもしれない制限や失敗モードに関する反論や指摘にも本当に関心があります。

https://preview.redd.it/7hzzkopus0xg1.png?width=1084&format=png&auto=webp&s=62481a3e621a221ca4ad45c45abd6db018a25244

投稿者: /u/Pigs-On-Wing
[リンク] [コメント]