Marco-MoE：効率的なアップサイクリングによるオープン多言語Mixture-of-Experts言語モデル

arXiv cs.CL / 2026/4/29

📰 ニュースIndustry & Market MovesModels & Research

共有:

要点

Marco-MoEは、入力トークンごとに全パラメータの約5%のみを有効化する設計を特徴とする、完全オープンな多言語スパースMixture-of-Experts（MoE）モデル群です。
本手法は極端なスパース性と「アップサイクリング（denseモデルからの転用）」を組み合わせることで、5Tトークンでの効率的な事前学習を可能にし、性能と計算量の比で先行指標の達成を報告しています。
英語および多言語ベンチマークで、Marco-MoEは同程度のサイズの競合を上回り、さらに事後学習したMarco-MoE-Instructは、活性化されるパラメータが3〜14倍多い競合モデルよりも高い性能を示すとされています。
論文では、関連する言語間で共有される構造化されたエキスパートの活性化パターンを学習しつつ、言語的に孤立した言語では高度に専門化した利用も維持することを分析しています。
コミュニティのために、著者らは学習データセット、レシピ、モデル重みの全てを公開しています。

要旨: 本稿では、完全にオープンな多言語スパースMixture-of-Experts（MoE）モデル群であるMarco-MoEを紹介する。Marco-MoEは、高度にスパースな設計を特徴とし、入力トークンごとに全パラメータのうち約5%のみが活性化される。この極端なスパース性に、密なモデルからのアップサイクリングを組み合わせることで、5Tトークンでの効率的な事前学習を可能にしている。提案モデルは、英語および多言語のベンチマークにおいて、同程度のサイズの競合を上回り、性能対計算量の観点で最先端の結果を達成する。さらに、これらのモデルを事後学習してMarco-MoE-\textsc{Instruct}のバリアントを作成し、活性化されるパラメータが $3$ -- $14\times$ 多い競合モデルを性能面で上回る。分析の結果、Marco-MoEは、関連する言語間で共有される構造化されたエキスパートの活性化パターンを学習しつつ、言語的に孤立したものに対しては高度に専門化された利用を維持することが分かる。加えて、Marco-MoEは、密なモデルに典型的に見られる干渉なしに、スケーラブルな言語拡張を可能にすることを示す。コミュニティのために、完全な学習データセット、レシピ、およびモデル重みを公開する。

Black Hat USA

AI Business

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

日経XTECH

LLMはコモディティになる

Reddit r/artificial

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

Dev.to

Marco-MoE：効率的なアップサイクリングによるオープン多言語Mixture-of-Experts言語モデル

要点

関連記事

Black Hat USA

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力