グローバルな視点は疎なMoEをエレガントに剪定するのに役立つか?
arXiv cs.CL / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Sparse Mixture-of-Experts(MoE)モデルに対するグローバルで冗長性を考慮した剪定戦略であるGRAPEを提案する。GRAPEは、層間の冗長性に基づいて層ごとの剪定予算を再配分し、一様な予算を用いるのではなく最適化する。
- Mixtral系のバリアント、DeepSeek-MoE、Qwen-MoE、GPT-OSSといった複数のMoE LLMに対する実験により、GRAPEは同一の剪定予算の下で、最も強力なローカル手法のベースラインと比較して、平均性能が最も良いことが示される。
- 本報告の3つの主要モデルにおいて、GRAPEは剪定設定全体にわたって平均精度を平均1.40%改善し、一部の構成では最大2.45%の向上が見られる。
- これらの結果は、ネットワーク全体の層における不均一な冗長性を明示的にモデル化することで、MoEの剪定をより効率的かつ高精度にできることを示唆している。



