要約: Mixture-of-Experts(MoE)ベースの大規模言語モデル(LLMs)は、顕著な性能と計算効率を示しています。しかし、その展開は、多数のエキスパートモジュールをロードする必要があることが主な原因で、大量のメモリ要件により制約されることがしばしばあります。
剪定やマージなどの既存のエキスパート圧縮技術はこれを緩和しようとしますが、不可逆的な知識の喪失や高いトレーニングオーバーヘッドに悩まされることが多いです。本論文では、冗長なエキスパートをパラメータ効率の高いモジュールに置換し、低いトレーニングコストで能力を回復させる、エキスパート置換と呼ばれる新しいエキスパート圧縮パラダイムを提案します。このパラダイムの素朴なベースラインですら、有望な性能を示すことが分かりました。この基盤に基づき、適応的エキスパート選択、階層的エキスパート構築、およびアニーリング復元戦略を導入するLightMoEというフレームワークを紹介します。実験結果は、LightMoEが30%の圧縮比でLoRAファインチューニングの性能に匹敵することを示しています。さらに、よりアグレッシブな50%の圧縮率の下でも、既存の手法を上回り、5つの多様なタスクにおいて平均性能を5.6%向上させることを達成しています。これらの発見は、LightMoEがメモリ効率、トレーニング効率、およびモデル性能の間で優れたバランスを取ることを示しています。
LightMoE: Expert Replacingによる Mixture-of-Experts の冗長性削減
arXiv cs.AI / 2026/3/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は expert replacing(冗長な MoE の専門家をパラメータ効率の高いモジュールへ置換するパラダイム)を提案し、能力を維持しつつメモリ使用量を削減します。
- LightMoE は、適応的なエキスパート選択、階層的なエキスパート構築、そして追加のトレーニングコストを最小化するアニーリング回復戦略を用いてこのアイデアを発展させます。
- 実験結果は、LightMoE が 30% の圧縮で LoRA のファインチューニングと同等を示し、50% の圧縮では既存の手法を上回り、5つのタスク全体で平均 5.6% の改善を示します。
- 全体として、LightMoE は MoE ベースの大規模言語モデルにおいて、メモリ効率、学習効率、性能の間で有利なトレードオフを示します。




