AIMER: キャリブレーション不要のタスク非依存MoEプルーニング

arXiv cs.LG / 2026/3/20

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

AIMERは、キャリブレーション不要のエキスパートランキング基準を Mixture-of-Experts（MoE）言語モデルに導入し、キャリブレーションなしでのプルーニングを実現します。
AIMER（エキスパートランキングのための絶対平均を RMS 重要度で割った指標）を定義し、層内のスコア分離を明確にし、エキスパートの階層化を際立たせます。
7B〜30B の MoE モデルおよび 25% と 50% のプルーニング比において、16 のベンチマークでキャリブレーションベースのベースラインと比べて競争力がある、またはそれ以上の性能を発揮します。
エキスパートのスコアリングはわずか 0.22〜1.27 秒で完了し、メモリと推論時のオーバーヘッドを削減することで効率的な展開を可能にします。

Abstract

Mixture-of-Experts (MoE) 言語モデルは、パラメータ容量を比例して増やす一方で、トークンごとの計算量は比例して増えません。しかしデプロイメントには依然として全エキスパートを保存する必要があり、メモリとサービングオーバーヘッドを削減するためにはエキスパートプルーニングが重要です。既存のタスク非依存エキスパートプルーニング手法は通常キャリブレーション依存的であり、キャリブレーションセット上のルーティングや活性化統計からエキスパートの重要性を推定するため、キャリブレーションセットの選択に敏感になり、前処理コストが大幅に増加します。私たちは AIMER (\textbf{A}bsolute mean over root mean square \textbf{IM}portance for \textbf{E}xpert \textbf{R}anking) を導入します。キャリブレーション不要のシンプルな基準で、層内のスコア分離を明確にし、エキスパートの階層化を際立たせます。7B から 30B の MoE 言語モデルを 16 ベンチマークにまたがって、25% および 50% のプルーニング比で、AIMER は最先端のキャリブレーションベースのエキスパートプルーニングのベースラインに対し、一貫して競争力のある、またはそれ以上の全体的な性能を提供し、エキスパートのスコアリングにはわずか 0.22〜1.27 秒しかかかりません。

Geminiで議事録作成を自動化！日本語の精度を最大化するプロンプトと活用術

note

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

note

【AIニュース】生成AIの「性格」比較【日経新聞】

note

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

note

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

AIMER: キャリブレーション不要のタスク非依存MoEプルーニング

要点

Abstract

関連記事

Geminiで議事録作成を自動化！日本語の精度を最大化するプロンプトと活用術

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

【AIニュース】生成AIの「性格」比較【日経新聞】

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer