MoE-GRPO:視覚言語モデルにおける強化学習でMixture-of-Expertsを最適化する
arXiv cs.CV / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Mixture-of-Experts(MoE)は、トークンごとに専門家(エキスパート)をまばらに活性化することでTransformerの計算量を削減し、この発想はマルチモーダルのスケーラビリティ向上のためにVision-Language Models(VLMs)へと拡張されている。
- 本論文は、決定論的なtop-Kによるエキスパート・ルーティングでは、より良いエキスパートの組み合わせを見逃す可能性があり、またルーティングの多様性が不足することでエキスパートの過学習(オーバーフィッティング)を招き得ると主張している。
- MoE-GRPOは、エキスパート選択を逐次的な意思決定として扱う強化学習(RL)フレームワークを提案し、ルーティングをGroup Relative Policy Optimization(GRPO)で最適化することで、適応的なルーティング方策を学習する。
- さらに、モダリティに応じたルータ誘導メカニズムを導入し、特定のモダリティ(例:画像と動画)に対してめったに使われないエキスパートの探索を抑制することで、学習を安定化し高速化する。
- マルチモーダルな画像および動画ベンチマークでの実験では、MoE-GRPOは標準的なtop-Kルーティングやその派生手法よりも優れており、エキスパートの多様性を高め、タスク単位でのエキスパートの専門化を可能にしつつ、過学習を抑えることが示されている。



