これらは6日前にリリースされたようです。検索してみましたが、それについての投稿は見つかりませんでした。
https://huggingface.co/AIDC-AI/Marco-Mini-Instruct
https://huggingface.co/AIDC-AI/Marco-Nano-Instruct
パラメータ数/アクティブ比率がかなりすごいですね、きっと稲妻のように速いはずです。
Marco-Mini-Instructは、Alibaba International Digital Commerceによって開発されたMarco-MoEファミリーの、高度にスパースなMixture-of-Experts(MoE)多言語言語モデル「Marco-Mini-Base」の指示調整版です。トークンごとに、全パラメータ17.3Bのうち0.86B(アクティブ比率5%)だけを有効化します。Marco-Mini-Instructは、Qwen3-4B-Instruct、Ministral3-8B-Instruct、Gemma3-12B-Instruct、LFM2-24B-A2B、Granite4-Small-Instructなど、最大12Bのアクティブ化パラメータを持つ指示モデルと比較して、英語、多言語の一般、そして多言語の文化ベンチマークにおける平均性能で最も優れています。
Marco-Nano-Instructは、Alibaba International Digital Commerceによって開発されたMarco-MoEファミリーの、高度にスパースなMixture-of-Experts(MoE)多言語言語モデル「Marco-Nano-Base」のポストトレーニング版です。トークンごとに、全パラメータ8Bのうち0.6B(アクティブ比率7.5%)だけを有効化します。極端なスパース性にもかかわらず、Marco-Nano-Instructは、最大3.84Bのアクティブ化パラメータまでの、同等の指示モデルすべての中で、英語、多言語の一般、そして多言語の文化ベンチマークにおける平均性能で最も優れています。
https://xcancel.com/ModelScope2022/status/2042084482661191942
https://pbs.twimg.com/media/HFbvyB-WsAAayv1.jpg?name=orig
Marco-Mini-Instructを紹介:Alibaba International製の、高度にスパースなMoE多言語モデルです。総パラメータ17.3B、アクティブは0.86Bのみ(アクティブ比率5%)。
英語、多言語の一般、文化ベンチマークで、Qwen3-4B、Gemma3-12B、Granite4-Smallを上回ります——それらのアクティブパラメータの一部で。
29言語:アラビア語、トルコ語、カザフ語、ベンガル語、ネパール語など
256エキスパート、トークンごとに8アクティブ。Qwen3-0.6B-BaseからDrop-Upcycling。
2段階のポストトレーニング:SFT + オンライン方針蒸留(Qwen3-30B → Qwen3-Next-80Bのカスケード)
✅ Apache 2.0
[link] [comments]
