要旨: MoEモデルが多くのベンチマークで優れた成果を収めているにもかかわらず、MoEアーキテクチャに対する教師ありファインチューニング(SFT)は、ルータ層が脆弱であるため依然として困難です。DenseMixer や ESFT のような手法は、密な混合や補助的な負荷分散損失によってルータの崩壊(router collapse)を緩和しますが、これらはノイズを含む勾配を導入することになり、しばしば性能を低下させます。予備実験として、私たちは専門家(expert)を体系的にプルーニングし、特定のスーパー専門家がより頻繁に活性化される一方で、あまり使われていない専門家を捨てても顕著な性能劣化が生じることを観察しました。これは、たとえ頻繁には活性化されない専門家であっても、下流タスクに有用な非自明な知識をエンコードしていることを示唆します。これに動機づけられ、私たちは、バイアスに基づく疎化と、常時アクティブなゲート付きコンデンサ専門家(gated condenser experts)を組み合わせた、補助損失なしの MoE SFT フレームワークを提案します。すべての専門家にわたって活性化を均衡に保つことを強制するのではなく、タスクに関連する専門家が活性状態を維持することを促し、長い尾(long-tailed)の専門家を不活性へと押しやります。コンデンサ専門家は、勾配飢餓(gradient starvation)を緩和し、疎に活性化される専門家群に散在してしまう情報を、本来断片的なまま残りがちなものを統合しやすくする、持続的で学習可能な経路を提供します。さらに、この設計は疎ルーティング下で長い尾の専門家情報をよりよく保持することを示唆する解析結果もあります。大規模な MoE モデルに対する実験では、私たちのアプローチが、DenseMixer や ESFT のような最先端の SFT ベースラインを上回り、数学的推論および commonsenseQA ベンチマークの両方で平均 2.5%+ の向上を達成しました。
長い尾の専門家情報を保持するためのミクスチャー・オブ・エキスパート(MoE)のチューニング
arXiv cs.LG / 2026/4/28
📰 ニュースModels & Research
要点
- Mixture-of-Experts(MoE)モデルはベンチマークで高い性能を示す一方で、ルータ層が壊れやすくルータの崩壊が起きやすいため、教師あり微調整(SFT)は難しい。
- DenseMixerやESFTのような既存手法は、密なミキシングや補助的な負荷分散損失でルータ崩壊を抑えるが、ノイズの多い勾配を生みやすく性能低下につながることがある。
- 事前実験では専門家(expert)のプルーニングを行うと、特に「ほとんど活性化されない」長い尾の専門家を捨てた場合でも目立つ性能低下が起き、稀に使われる専門家にも有用な知識が含まれていることが示唆された。
- 著者らは、補助損失を使わずに、バイアス主導のスパース化と常時アクティブなゲート付きコンデンサー専門家を組み合わせるMoE SFTフレームワークを提案し、スパース経路で断片化されがちな情報を保ちつつ勾配飢餓を緩和する。
- 大規模MoEモデルでの実験では、DenseMixerやESFTなどのSFTベースラインを上回り、数学的推論とCommonsenseQAの両方で平均2.5%超の改善が得られた。




