AIMER: キャリブレーション不要のタスク非依存MoEプルーニング

arXiv cs.LG / 2026/3/20

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • AIMERは、キャリブレーション不要のエキスパートランキング基準を Mixture-of-Experts(MoE)言語モデルに導入し、キャリブレーションなしでのプルーニングを実現します。
  • AIMER(エキスパートランキングのための絶対平均を RMS 重要度で割った指標)を定義し、層内のスコア分離を明確にし、エキスパートの階層化を際立たせます。
  • 7B〜30B の MoE モデルおよび 25% と 50% のプルーニング比において、16 のベンチマークでキャリブレーションベースのベースラインと比べて競争力がある、またはそれ以上の性能を発揮します。
  • エキスパートのスコアリングはわずか 0.22〜1.27 秒で完了し、メモリと推論時のオーバーヘッドを削減することで効率的な展開を可能にします。

Abstract

Mixture-of-Experts (MoE) 言語モデルは、パラメータ容量を比例して増やす一方で、トークンごとの計算量は比例して増えません。しかしデプロイメントには依然として全エキスパートを保存する必要があり、メモリとサービングオーバーヘッドを削減するためにはエキスパートプルーニングが重要です。既存のタスク非依存エキスパートプルーニング手法は通常キャリブレーション依存的であり、キャリブレーションセット上のルーティングや活性化統計からエキスパートの重要性を推定するため、キャリブレーションセットの選択に敏感になり、前処理コストが大幅に増加します。私たちは AIMER (\textbf{A}bsolute mean over root mean square \textbf{IM}portance for \textbf{E}xpert \textbf{R}anking) を導入します。キャリブレーション不要のシンプルな基準で、層内のスコア分離を明確にし、エキスパートの階層化を際立たせます。7B から 30B の MoE 言語モデルを 16 ベンチマークにまたがって、25% および 50% のプルーニング比で、AIMER は最先端のキャリブレーションベースのエキスパートプルーニングのベースラインに対し、一貫して競争力のある、またはそれ以上の全体的な性能を提供し、エキスパートのスコアリングにはわずか 0.22〜1.27 秒しかかかりません。