要旨: Mixture-of-Experts(MoE)に基づく大規模言語モデル(LLM)は、性能を効率的にスケールできることから産業応用において極めて重要です。しかし、標準的なMoEは専門家(エキスパート)のサイズを一様に強制するため、計算コストをトークン単位の複雑さの変動に合わせられないという硬直性が生じます。異種の専門家アーキテクチャは、専門家サイズの多様化によってこの問題に対処しようとしますが、多くの場合、重大なシステムレベルの課題、すなわちGPU利用の偏りやパラメータ利用の非効率といった問題に悩まされ、実運用の妨げとなります。理論上の異種性と、堅牢な産業応用とのギャップを埋めるために、柔軟でリソースを意識した専門家の組み合わせを可能にする二段階のルーティング機構を導入した、Mixture of Heterogeneous Grouped Experts(MoHGE)を提案します。推論効率を最適化するために、タスクの難易度に応じて、トークンを最もパラメータ効率の高い専門家グループへ動的に誘導するGroup-Wise Auxiliary Loss(グループ単位の補助損失)を提案します。GPUロードバランシングという重要な導入課題に対処するために、Intra-Group Experts Auxiliary Loss(グループ内専門家の補助損失)と組み合わせたAll-size Group-decoupling Allocation(全サイズグループ非連動化配分)戦略を導入します。これらの仕組みにより、GPU間での計算分布が一様に保たれることが保証されます。広範な評価の結果、MoHGEはMoEアーキテクチャと同等の性能を実現しつつ、総パラメータ数を約20%削減し、GPU利用のバランスも維持できることが示されました。本研究は、資源効率の高いMoE設計のためのスケーラブルなパラダイムを確立し、現実のシナリオにおける推論コスト最適化のための実用的な解決策を提供します。コードは https://github.com/UnicomAI/MoHGE で公開されています。
言語モデリングのための異種グループ化エキスパート・ミクスチャー
arXiv cs.CL / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、計算コストをトークンの複雑さにより適切に対応させるための、実用的な異種MoE設計としてMixture of Heterogeneous Grouped Experts(MoHGE)を提案している。
- 2段階のルーティング機構により、リソースを考慮しながらエキスパートの組み合わせを柔軟に選択できるようにしている。
- 推論効率の向上のため、タスク難度に応じてトークンをよりパラメータ効率の高いエキスパート・グループへ導くGroup-Wise Auxiliary Lossを提案する。
- 実運用上の重要課題であるGPU負荷の負荷分散について、All-size Group-decoupling AllocationとIntra-Group Experts Auxiliary Lossを組み合わせ、GPU間で計算を均一化する。
- 実験の結果、MoHGEは標準MoEと同等の性能を達成しつつ、総パラメータを約20%削減し、GPU利用のバランスも維持できることが示されており、コードも公開されている。



