グローバルな視点は疎なMoEをエレガントに剪定するのに役立つか?

arXiv cs.CL / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Sparse Mixture-of-Experts(MoE)モデルに対するグローバルで冗長性を考慮した剪定戦略であるGRAPEを提案する。GRAPEは、層間の冗長性に基づいて層ごとの剪定予算を再配分し、一様な予算を用いるのではなく最適化する。
  • Mixtral系のバリアント、DeepSeek-MoE、Qwen-MoE、GPT-OSSといった複数のMoE LLMに対する実験により、GRAPEは同一の剪定予算の下で、最も強力なローカル手法のベースラインと比較して、平均性能が最も良いことが示される。
  • 本報告の3つの主要モデルにおいて、GRAPEは剪定設定全体にわたって平均精度を平均1.40%改善し、一部の構成では最大2.45%の向上が見られる。
  • これらの結果は、ネットワーク全体の層における不均一な冗長性を明示的にモデル化することで、MoEの剪定をより効率的かつ高精度にできることを示唆している。

Abstract

言語モデルに関する経験的スケーリング則は、計算コストとメモリコストが増大しているにもかかわらず、より大規模なLLMの開発を後押ししてきました。スパースMixture-of-Experts(MoEs)は、前向き計算の各パスで専門家の一部のみを活性化することで、性能を損なうことなく効率を高める有望な代替手段です。しかし、専門家パラメータの数が多いこと自体が、依然として大きなメモリ消費につながっています。 既存のプルーニング手法は通常、各層に予算を一様に配分しており、スパースMoEsで生じる不均一な冗長性を見落としています。そこで本研究では、GRAPE(Global Redundancy-Aware Pruning of Experts、層間の冗長性に基づいてプルーニング予算を動的に割り当てるグローバルなプルーニング戦略)を提案します。Mixtral-8x7B、Mixtral-8x22B、DeepSeek-MoE、Qwen-MoE、GPT-OSSに関する実験により、同じプルーニング予算のもとでGRAPEが一貫して最良の平均性能を達成することが示されます。論文中で報告されている3つの主要モデルでは、強力なローカル基準ベースラインに対して平均精度が、プルーニング設定全体で平均1.40%向上し、最大で2.45%の改善が得られます。