Alibabaによる Marco-Mini（17.3B、アクティブ0.86B）および Marco-Nano（8B、アクティブ0.6B）

Reddit r/LocalLLaMA / 2026/4/10

📰 ニュースSignals & Early TrendsModels & Research

原文を読む →

共有:

要点

Alibaba International Digital Commerceは、Hugging Face上で新たに2つのインストラクションチューニング済みの疎なMixture-of-Experts（MoE）型多言語LLMを公開しました。それが Marco-Mini-Instruct（17.3Bパラメータ、トークンあたり約0.86Bをアクティブ化）および Marco-Nano-Instruct（8Bパラメータ、トークンあたり約0.6Bをアクティブ化）です。
Marco-Mini-Instructは、トークンあたり約5%のパラメータをアクティブ化（0.86B active）し、比較可能なインストラクションモデルに対して、英語、多言語の一般、ならびに多言語の文化に関するテストでトップの平均ベンチマーク性能を達成したと報告されています。
Marco-Nano-Instructは、トークンあたり約7.5%をアクティブ化（0.6B active）する一方で、比較可能なインストラクションモデルのうち最大約3.84Bのアクティブ化パラメータを用いるものまで含めた平均性能を上回ると報告されています。
これらのモデルは、極端な疎性（extreme sparsity）によって効率を重視しており、Marco-Mini-Instructは256のエキスパートを持ち、トークンごとに8つのアクティブなエキスパートを使用すると説明されています。また、両バリアントともSFTおよびオンライン・ポリシー蒸留を含むポストトレーニング・パイプラインを用いると説明されています。
どちらのリリースもApache 2.0ライセンスのもとで提供されており、報告ベースで29言語の多言語対応をサポートします。

これらは6日前にリリースされたようです。検索してみましたが、それについての投稿は見つかりませんでした。

https://huggingface.co/AIDC-AI/Marco-Mini-Instruct

https://huggingface.co/AIDC-AI/Marco-Nano-Instruct

パラメータ数／アクティブ比率がかなりすごいですね、きっと稲妻のように速いはずです。

Marco-Mini-Instructは、Alibaba International Digital Commerceによって開発されたMarco-MoEファミリーの、高度にスパースなMixture-of-Experts（MoE）多言語言語モデル「Marco-Mini-Base」の指示調整版です。トークンごとに、全パラメータ17.3Bのうち0.86B（アクティブ比率5%）だけを有効化します。Marco-Mini-Instructは、Qwen3-4B-Instruct、Ministral3-8B-Instruct、Gemma3-12B-Instruct、LFM2-24B-A2B、Granite4-Small-Instructなど、最大12Bのアクティブ化パラメータを持つ指示モデルと比較して、英語、多言語の一般、そして多言語の文化ベンチマークにおける平均性能で最も優れています。

Marco-Nano-Instructは、Alibaba International Digital Commerceによって開発されたMarco-MoEファミリーの、高度にスパースなMixture-of-Experts（MoE）多言語言語モデル「Marco-Nano-Base」のポストトレーニング版です。トークンごとに、全パラメータ8Bのうち0.6B（アクティブ比率7.5%）だけを有効化します。極端なスパース性にもかかわらず、Marco-Nano-Instructは、最大3.84Bのアクティブ化パラメータまでの、同等の指示モデルすべての中で、英語、多言語の一般、そして多言語の文化ベンチマークにおける平均性能で最も優れています。

https://xcancel.com/ModelScope2022/status/2042084482661191942

https://pbs.twimg.com/media/HFbvyB-WsAAayv1.jpg?name=orig

Marco-Mini-Instructを紹介：Alibaba International製の、高度にスパースなMoE多言語モデルです。総パラメータ17.3B、アクティブは0.86Bのみ（アクティブ比率5%）。

英語、多言語の一般、文化ベンチマークで、Qwen3-4B、Gemma3-12B、Granite4-Smallを上回ります——それらのアクティブパラメータの一部で。

29言語：アラビア語、トルコ語、カザフ語、ベンガル語、ネパール語など

256エキスパート、トークンごとに8アクティブ。Qwen3-0.6B-BaseからDrop-Upcycling。

2段階のポストトレーニング：SFT + オンライン方針蒸留（Qwen3-30B → Qwen3-Next-80Bのカスケード）

✅ Apache 2.0

submitted by /u/AnticitizenPrime
[link] [comments]

Black Hat Asia

AI Business

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

日経XTECH

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

Alibabaによる Marco-Mini（17.3B、アクティブ0.86B）および Marco-Nano（8B、アクティブ0.6B）

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画 テラファブ「製造技術を刷新」

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ