概要: 大規模言語モデル(LLMs)の時代において、混合専門家(MoE)アーキテクチャは、計算効率を改善しながら非常に大規模なモデルを学習するための効果的なアプローチとして登場してきました。この成功は、MoEベースのLLMにおける専門家の特化を強化することを目的とした広範な先行研究に基づいています。しかし、このような特化の性質と、それらを体系的にどのように解釈できるのかは、いまだ未解決の研究課題です。本研究では、このギャップを埋めるために、根本的な問いを提示します:\textit{MoEベースのLLMには領域固有の専門家が存在するのでしょうか?} この問いに答えるために、パラメータ数3.8Bから120Bまでの10個の先進的なMoEベースLLMを評価し、領域固有の専門家の存在を裏付ける経験的証拠を提示します。さらに、この発見を基に、\textbf{Domain Steering Mixture of Experts(DSMoE)}を提案します。これは学習不要の枠組みであり、推論コストをゼロで追加せず、訓練済みのMoEベースLLMだけでなく、強力なベースライン(Supervised Fine-Tuning(SFT)を含む)も上回ります。対象領域と非対象領域の両方にまたがって4つの先進的なオープンソースのMoEベースLLMで行った実験により、本手法は推論コストを増やすことも追加の再学習を必要とすることもなく、強い性能と頑健な汎化を達成することが示されます。本実装は https://github.com/giangdip2410/Domain-specific-Experts で公開されています。
MoEベースのLLMにはドメイン特化のエキスパートは存在するのか?
arXiv cs.CL / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、Mixture of Experts(MoE)LLMの内部でドメイン特化のエキスパートらしい振る舞いが実際に現れるのかを問い、その検証をパラメータ数3.8B〜120Bの先進的なMoEモデル10種類に対して行う。
- 著者らは、MoEベースLLMにおいてドメイン特化のエキスパートが存在することを示す経験的な証拠を提示し、専門化と解釈可能性に関する未解決の問いに取り組む。
- 推論時の追加計算コストを増やさずにドメイン挙動を誘導することを目的とした、学習不要(training-free)の手法としてDomain Steering Mixture of Experts(DSMoE)を提案する。
- 実験の結果、DSMoEは、十分に学習されたMoE LLMに加えて、Supervised Fine-Tuning(SFT)といった強力なベースラインに対して、ターゲット領域・非ターゲット領域の両方で優れた性能を示す。
- この手法は、同じ推論コストを維持しつつ、性能向上と頑健な汎化を実現すると報告されており、実装はGitHubで公開されている。
