Marco-MoE:効率的なアップサイクリングによるオープン多言語Mixture-of-Experts言語モデル

arXiv cs.CL / 2026/4/29

📰 ニュースIndustry & Market MovesModels & Research

要点

  • Marco-MoEは、入力トークンごとに全パラメータの約5%のみを有効化する設計を特徴とする、完全オープンな多言語スパースMixture-of-Experts(MoE)モデル群です。
  • 本手法は極端なスパース性と「アップサイクリング(denseモデルからの転用)」を組み合わせることで、5Tトークンでの効率的な事前学習を可能にし、性能と計算量の比で先行指標の達成を報告しています。
  • 英語および多言語ベンチマークで、Marco-MoEは同程度のサイズの競合を上回り、さらに事後学習したMarco-MoE-Instructは、活性化されるパラメータが3〜14倍多い競合モデルよりも高い性能を示すとされています。
  • 論文では、関連する言語間で共有される構造化されたエキスパートの活性化パターンを学習しつつ、言語的に孤立した言語では高度に専門化した利用も維持することを分析しています。
  • コミュニティのために、著者らは学習データセット、レシピ、モデル重みの全てを公開しています。

要旨: 本稿では、完全にオープンな多言語スパースMixture-of-Experts(MoE)モデル群であるMarco-MoEを紹介する。Marco-MoEは、高度にスパースな設計を特徴とし、入力トークンごとに全パラメータのうち約5%のみが活性化される。この極端なスパース性に、密なモデルからのアップサイクリングを組み合わせることで、5Tトークンでの効率的な事前学習を可能にしている。提案モデルは、英語および多言語のベンチマークにおいて、同程度のサイズの競合を上回り、性能対計算量の観点で最先端の結果を達成する。さらに、これらのモデルを事後学習してMarco-MoE-\textsc{Instruct}のバリアントを作成し、活性化されるパラメータが3--14\times多い競合モデルを性能面で上回る。分析の結果、Marco-MoEは、関連する言語間で共有される構造化されたエキスパートの活性化パターンを学習しつつ、言語的に孤立したものに対しては高度に専門化された利用を維持することが分かる。加えて、Marco-MoEは、密なモデルに典型的に見られる干渉なしに、スケーラブルな言語拡張を可能にすることを示す。コミュニティのために、完全な学習データセット、レシピ、およびモデル重みを公開する。