訓練不要のダイナミック・アップサイクリングによるエキスパート言語モデルの統合
arXiv cs.CL / 2026/4/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、異なるドメインで既に訓練済みの高密度エキスパート言語モデルを再利用して、単一のMixture-of-Experts(MoE)システムを構築する訓練不要の手法「Dynamic Upcycling MoE(DUME)」を提案する。
- DUMEは、閉形式のリッジ回帰解を用いることで高コストなマルチタスクの微調整を回避し、構築中のさらなる最適化を不要にすることで、エキスパートを動的に追加できるようにする。
- 著者らは強力な実験結果を報告している。因果言語モデリングでは、DUMEはドメイン特化型の高密度エキスパートの性能を最大97.6%保持し、推論では高密度エキスパートの性能を102.1%まで到達させることができる。
- この研究は、構築されたMoEが後に追加の改善のために微調整され得る一方で、従来のエキスパートの微調整アプローチと比べて、コスト効率とスケーラビリティを維持できることを示唆している。
- 研究コードは公開されており、コミュニティによる再現性の確保と他者による実験を支援する。




