Alibabaによる Marco-Mini(17.3B、アクティブ0.86B)および Marco-Nano(8B、アクティブ0.6B)

Reddit r/LocalLLaMA / 2026/4/10

📰 ニュースSignals & Early TrendsModels & Research

要点

  • Alibaba International Digital Commerceは、Hugging Face上で新たに2つのインストラクションチューニング済みの疎なMixture-of-Experts(MoE)型多言語LLMを公開しました。それが Marco-Mini-Instruct(17.3Bパラメータ、トークンあたり約0.86Bをアクティブ化)および Marco-Nano-Instruct(8Bパラメータ、トークンあたり約0.6Bをアクティブ化)です。
  • Marco-Mini-Instructは、トークンあたり約5%のパラメータをアクティブ化(0.86B active)し、比較可能なインストラクションモデルに対して、英語、多言語の一般、ならびに多言語の文化に関するテストでトップの平均ベンチマーク性能を達成したと報告されています。
  • Marco-Nano-Instructは、トークンあたり約7.5%をアクティブ化(0.6B active)する一方で、比較可能なインストラクションモデルのうち最大約3.84Bのアクティブ化パラメータを用いるものまで含めた平均性能を上回ると報告されています。
  • これらのモデルは、極端な疎性(extreme sparsity)によって効率を重視しており、Marco-Mini-Instructは256のエキスパートを持ち、トークンごとに8つのアクティブなエキスパートを使用すると説明されています。また、両バリアントともSFTおよびオンライン・ポリシー蒸留を含むポストトレーニング・パイプラインを用いると説明されています。
  • どちらのリリースもApache 2.0ライセンスのもとで提供されており、報告ベースで29言語の多言語対応をサポートします。

これらは6日前にリリースされたようです。検索してみましたが、それについての投稿は見つかりませんでした。

https://huggingface.co/AIDC-AI/Marco-Mini-Instruct

https://huggingface.co/AIDC-AI/Marco-Nano-Instruct

パラメータ数/アクティブ比率がかなりすごいですね、きっと稲妻のように速いはずです。

Marco-Mini-Instructは、Alibaba International Digital Commerceによって開発されたMarco-MoEファミリーの、高度にスパースなMixture-of-Experts(MoE)多言語言語モデル「Marco-Mini-Base」の指示調整版です。トークンごとに、全パラメータ17.3Bのうち0.86B(アクティブ比率5%)だけを有効化します。Marco-Mini-Instructは、Qwen3-4B-Instruct、Ministral3-8B-Instruct、Gemma3-12B-Instruct、LFM2-24B-A2B、Granite4-Small-Instructなど、最大12Bのアクティブ化パラメータを持つ指示モデルと比較して、英語、多言語の一般、そして多言語の文化ベンチマークにおける平均性能で最も優れています。


Marco-Nano-Instructは、Alibaba International Digital Commerceによって開発されたMarco-MoEファミリーの、高度にスパースなMixture-of-Experts(MoE)多言語言語モデル「Marco-Nano-Base」のポストトレーニング版です。トークンごとに、全パラメータ8Bのうち0.6B(アクティブ比率7.5%)だけを有効化します。極端なスパース性にもかかわらず、Marco-Nano-Instructは、最大3.84Bのアクティブ化パラメータまでの、同等の指示モデルすべての中で、英語、多言語の一般、そして多言語の文化ベンチマークにおける平均性能で最も優れています。

https://xcancel.com/ModelScope2022/status/2042084482661191942

https://pbs.twimg.com/media/HFbvyB-WsAAayv1.jpg?name=orig

Marco-Mini-Instructを紹介:Alibaba International製の、高度にスパースなMoE多言語モデルです。総パラメータ17.3B、アクティブは0.86Bのみ(アクティブ比率5%)。

英語、多言語の一般、文化ベンチマークで、Qwen3-4B、Gemma3-12B、Granite4-Smallを上回ります——それらのアクティブパラメータの一部で。

29言語:アラビア語、トルコ語、カザフ語、ベンガル語、ネパール語など

256エキスパート、トークンごとに8アクティブ。Qwen3-0.6B-BaseからDrop-Upcycling。

2段階のポストトレーニング:SFT + オンライン方針蒸留(Qwen3-30B → Qwen3-Next-80Bのカスケード)

✅ Apache 2.0

submitted by /u/AnticitizenPrime
[link] [comments]