クラスタ対応のアップサイクリングによりMixture-of-Experts(MoE)の専門性を強化する
arXiv cs.CV / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Mixture-of-Experts(MoE)モデルにおけるSparse Upcyclingの限界に着目している。具体的には、同一のエキスパート初期重みとランダムに初期化されたルータにより、エキスパート間の対称性が生まれ、初期段階での専門性が弱くなるという問題である。
- 密なモデルの入力アクティベーションを意味的にクラスタリングし、各クラスタのサブスペースから切り詰めSVDによって各エキスパートを初期化することで、クラスタ対応のアップサイクリング(Cluster-aware Upcycling)を提案する。さらにルータ重みはクラスタ重心を用いて初期化する。
- 学習の安定性とルーティング品質を高めるため、著者らはアンサンブル・ティーチャーを用いて信頼できるルーティングの指針を与える、エキスパート・アンサンブル自己蒸留(self-distillation)損失を追加する。
- CLIPのViT-B/32およびViT-B/16に関する実験では、ゼロショットおよび少数ショットのベンチマークの両方で、先行手法に対する一貫した改善が示される。加えて、より多様で、かつ分離されたエキスパート表現が得られる。
- このアプローチは、エキスパート間の類似度を低減し、より確信のあるルーティング挙動をもたらすことが報告されており、学習の初期段階から専門化されたエキスパートをより適切に活用できることを示唆している。
