MoE-GRPO:視覚言語モデルにおける強化学習でMixture-of-Expertsを最適化する

arXiv cs.CV / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Mixture-of-Experts(MoE)は、トークンごとに専門家(エキスパート)をまばらに活性化することでTransformerの計算量を削減し、この発想はマルチモーダルのスケーラビリティ向上のためにVision-Language Models(VLMs)へと拡張されている。
  • 本論文は、決定論的なtop-Kによるエキスパート・ルーティングでは、より良いエキスパートの組み合わせを見逃す可能性があり、またルーティングの多様性が不足することでエキスパートの過学習(オーバーフィッティング)を招き得ると主張している。
  • MoE-GRPOは、エキスパート選択を逐次的な意思決定として扱う強化学習(RL)フレームワークを提案し、ルーティングをGroup Relative Policy Optimization(GRPO)で最適化することで、適応的なルーティング方策を学習する。
  • さらに、モダリティに応じたルータ誘導メカニズムを導入し、特定のモダリティ(例:画像と動画)に対してめったに使われないエキスパートの探索を抑制することで、学習を安定化し高速化する。
  • マルチモーダルな画像および動画ベンチマークでの実験では、MoE-GRPOは標準的なtop-Kルーティングやその派生手法よりも優れており、エキスパートの多様性を高め、タスク単位でのエキスパートの専門化を可能にしつつ、過学習を抑えることが示されている。

Abstract

Mixture-of-Experts(MoE)は、高いモデル能力を維持しつつ、各トークンごとにパラメータの一部のみを疎に活性化することで、Transformerアーキテクチャの計算オーバーヘッドを削減する効果的なアプローチとして注目されています。このパラダイムは最近、Vision-Language Models(VLMs)にも拡張され、計算コストを抑えたままスケーラブルなマルチモーダル理解を可能にしています。しかし、広く採用されている決定論的なtop-Kルーティング機構は、より最適なエキスパートの組み合わせを見落とす可能性があり、エキスパートの過学習につながり得ます。 この制約に対処し、エキスパート選択の多様性を改善するために、本研究ではMoE-GRPOを提案します。MoEベースVLMにおけるエキスパート・ルーティングを最適化するための、強化学習(RL)に基づくフレームワークです。具体的には、エキスパート選択を逐次意思決定問題として定式化し、Group Relative Policy Optimization(GRPO)を用いて最適化します。これにより、探索と報酬に基づくフィードバックを通じて、モデルが適応的なエキスパート・ルーティング方策を学習できるようにします。さらに、モダリティに応じたルータ誘導を導入します。これは、特定のモダリティに対して頻繁に活性化されないエキスパートを探索することを抑制することで、学習の安定性と効率を高めます。 マルチモーダル画像および動画のベンチマークに対する大規模な実験の結果、MoE-GRPOは、多様性の高いエキスパート選択を促進することで、標準的なtop-Kルーティングおよびその派生手法を一貫して上回り、エキスパートの過学習を緩和し、タスクレベルでのエキスパート特化を可能にすることが示されました。