言語モデリングのための異種グループ化エキスパート・ミクスチャー

arXiv cs.CL / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、計算コストをトークンの複雑さにより適切に対応させるための、実用的な異種MoE設計としてMixture of Heterogeneous Grouped Experts（MoHGE）を提案している。
2段階のルーティング機構により、リソースを考慮しながらエキスパートの組み合わせを柔軟に選択できるようにしている。
推論効率の向上のため、タスク難度に応じてトークンをよりパラメータ効率の高いエキスパート・グループへ導くGroup-Wise Auxiliary Lossを提案する。
実運用上の重要課題であるGPU負荷の負荷分散について、All-size Group-decoupling AllocationとIntra-Group Experts Auxiliary Lossを組み合わせ、GPU間で計算を均一化する。
実験の結果、MoHGEは標準MoEと同等の性能を達成しつつ、総パラメータを約20%削減し、GPU利用のバランスも維持できることが示されており、コードも公開されている。

要旨: Mixture-of-Experts（MoE）に基づく大規模言語モデル（LLM）は、性能を効率的にスケールできることから産業応用において極めて重要です。しかし、標準的なMoEは専門家（エキスパート）のサイズを一様に強制するため、計算コストをトークン単位の複雑さの変動に合わせられないという硬直性が生じます。異種の専門家アーキテクチャは、専門家サイズの多様化によってこの問題に対処しようとしますが、多くの場合、重大なシステムレベルの課題、すなわちGPU利用の偏りやパラメータ利用の非効率といった問題に悩まされ、実運用の妨げとなります。理論上の異種性と、堅牢な産業応用とのギャップを埋めるために、柔軟でリソースを意識した専門家の組み合わせを可能にする二段階のルーティング機構を導入した、Mixture of Heterogeneous Grouped Experts（MoHGE）を提案します。推論効率を最適化するために、タスクの難易度に応じて、トークンを最もパラメータ効率の高い専門家グループへ動的に誘導するGroup-Wise Auxiliary Loss（グループ単位の補助損失）を提案します。GPUロードバランシングという重要な導入課題に対処するために、Intra-Group Experts Auxiliary Loss（グループ内専門家の補助損失）と組み合わせたAll-size Group-decoupling Allocation（全サイズグループ非連動化配分）戦略を導入します。これらの仕組みにより、GPU間での計算分布が一様に保たれることが保証されます。広範な評価の結果、MoHGEはMoEアーキテクチャと同等の性能を実現しつつ、総パラメータ数を約20%削減し、GPU利用のバランスも維持できることが示されました。本研究は、資源効率の高いMoE設計のためのスケーラブルなパラダイムを確立し、現実のシナリオにおける推論コスト最適化のための実用的な解決策を提供します。コードは https://github.com/UnicomAI/MoHGE で公開されています。

Claude検索機能の使い方は？ChatGPTとの違いや精度を徹底解説

note

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

日経XTECH

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

GIGAZINE

Promptflow、Prompty、OpenAIを使ってトレーサブルで評価可能なLLMワークフローを構築する方法

MarkTechPost

ADAMオプティマイザーの収束証明の改良

Dev.to

言語モデリングのための異種グループ化エキスパート・ミクスチャー

要点

関連記事

Claude検索機能の使い方は？ChatGPTとの違いや精度を徹底解説

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

Promptflow、Prompty、OpenAIを使ってトレーサブルで評価可能なLLMワークフローを構築する方法

ADAMオプティマイザーの収束証明の改良

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Claude検索機能の使い方は？ChatGPTとの違いや精度を徹底解説

富岳NEXT「世界一狙わず」 理研・富士通・NVIDIA、AI時代の使われる計算機へ

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

Promptflow、Prompty、OpenAIを使ってトレーサブルで評価可能なLLMワークフローを構築する方法

ADAMオプティマイザーの収束証明の改良

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ