REAM:LLMにおけるエキスパートのプルーニングを統合によって改善する

arXiv cs.AI / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Mixture-of-Experts(MoE)LLMに対するメモリ削減手法として、ルータに基づく専門家(エキスパート)削除(REAP)ではなく統合(REAM)を行う新手法Router-weighted Expert Activation Mergingを提案している。
  • REAMは削除ではなくエキスパートをグルーピングして重みをマージすることで、圧縮による性能劣化をより抑えることを狙っている。
  • 複数のMoE LLMで、複数選択式(MC)と生成(GEN)のベンチマークに対してREAPや他のベースラインと比較し、MCとGENの性能トレードオフが観測されることを示す。
  • トレードオフはキャリブレーションデータの「一般・数学・コーディング」比率に依存し、その混合比を調整してPareto frontierを分析した結果、REAMはベースラインを上回り、場合によっては元の非圧縮モデルに近い性能を示すと報告されている。