訓練不要のダイナミック・アップサイクリングによるエキスパート言語モデルの統合

arXiv cs.CL / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、異なるドメインで既に訓練済みの高密度エキスパート言語モデルを再利用して、単一のMixture-of-Experts（MoE）システムを構築する訓練不要の手法「Dynamic Upcycling MoE（DUME）」を提案する。
DUMEは、閉形式のリッジ回帰解を用いることで高コストなマルチタスクの微調整を回避し、構築中のさらなる最適化を不要にすることで、エキスパートを動的に追加できるようにする。
著者らは強力な実験結果を報告している。因果言語モデリングでは、DUMEはドメイン特化型の高密度エキスパートの性能を最大97.6%保持し、推論では高密度エキスパートの性能を102.1%まで到達させることができる。
この研究は、構築されたMoEが後に追加の改善のために微調整され得る一方で、従来のエキスパートの微調整アプローチと比べて、コスト効率とスケーラビリティを維持できることを示唆している。
研究コードは公開されており、コミュニティによる再現性の確保と他者による実験を支援する。

Abstract

大規模言語モデル（LLM）は、多種多様な専門タスクにおいて目覚ましい性能を達成し、高い問題解決能力を示しています。しかし、これらのモデルの学習は費用が非常に高くつくうえ、一般知識のデータセットに依存しているため、ドメイン固有の専門性を欠いていることが多いです。専門性のファインチューニングはこの問題に対処できますが、多くの場合過度な専門化につながり、発散する目的により単一のマルチドメイン専門家を開発することは依然として困難です。さらに、マルチタスク学習は干渉や壊滅的忘却により難しくなります。既存研究では、Mixture of Experts（MoE）アーキテクチャの中で高密度モデルの専門性を組み合わせることが提案されていますが、このアプローチでもなおマルチタスクのファインチューニングが必要です。これらの課題に対処するため、異なるドメインで学習された高密度の専門家を再利用して統一されたMoEモデルを構築する、新しい手法であるDynamic Upcycling MoE（DUME）を提案します。本手法は、追加の学習を必要とせずに、元の高密度専門家の能力を保持したまま単一のマルチタスクモデルを構築します。DUMEはコスト効率的かつスケーラブルです。リッジ回帰の閉形式解を活用することで、さらなる最適化の必要をなくし、モデルの元の性能を維持しながら専門家を動的に追加できるようにします。DUMEは、因果言語モデリングおよび推論の両設定において、一貫してベースライン手法を上回ることを示します。最後に、DUMEモデルをさらに微調整して性能を向上できることも示します。因果言語モデリングの設定では、DUMEは特定の1つのドメインに特化した高密度専門家モデルの最大97.6%を保持でき、また推論の設定では、それを上回ることも示し、高密度専門家の性能の102.1%に到達できることを示します。コードは以下で公開しています: github.com/gensyn-ai/dume。