モジュール単位で適応的かつきめ細かくエキスパートを刈り込むことで効率的なLoRA-MoE微調整を実現

arXiv cs.LG / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文では、Transformerの各モジュールに対して一様なエキスパート構成を固定することで生じる非効率を解決するLoRA-MoE微調整フレームワーク「DMEP（Dynamic Module-wise Expert Pruning）」を提案している。
DMEPは学習中にエキスパートの利用状況を追跡し、モジュールごとに有用性の低いエキスパートを物理的に削除することで、モジュールに最適化されたより小さなエキスパート構造を作る。
既存手法のように学習を通じてロードバランシング制約を維持するのではなく、刈り込み後はその制約を外し、残ったエキスパートが下流タスクに向けて専門化できるようにする。
複数の推論ベンチマークでの実験では、DMEPが学習可能パラメータを35%〜43%削減し、学習スループットを約10%向上させつつ、推論精度は一様なLoRA-MoEと同等かそれ以上に保つことを示している。
全体として、モジュール単位でエキスパート容量を適応的に調整し、最適化状態の不要なオーバーヘッドも削減することで、パラメータ効率と学習効率の両方を高めることを狙っている。