MoE-GRPO：視覚言語モデルにおける強化学習でMixture-of-Expertsを最適化する

arXiv cs.CV / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Mixture-of-Experts（MoE）は、トークンごとに専門家（エキスパート）をまばらに活性化することでTransformerの計算量を削減し、この発想はマルチモーダルのスケーラビリティ向上のためにVision-Language Models（VLMs）へと拡張されている。
本論文は、決定論的なtop-Kによるエキスパート・ルーティングでは、より良いエキスパートの組み合わせを見逃す可能性があり、またルーティングの多様性が不足することでエキスパートの過学習（オーバーフィッティング）を招き得ると主張している。
MoE-GRPOは、エキスパート選択を逐次的な意思決定として扱う強化学習（RL）フレームワークを提案し、ルーティングをGroup Relative Policy Optimization（GRPO）で最適化することで、適応的なルーティング方策を学習する。
さらに、モダリティに応じたルータ誘導メカニズムを導入し、特定のモダリティ（例：画像と動画）に対してめったに使われないエキスパートの探索を抑制することで、学習を安定化し高速化する。
マルチモーダルな画像および動画ベンチマークでの実験では、MoE-GRPOは標準的なtop-Kルーティングやその派生手法よりも優れており、エキスパートの多様性を高め、タスク単位でのエキスパートの専門化を可能にしつつ、過学習を抑えることが示されている。

Abstract

Mixture-of-Experts（MoE）は、高いモデル能力を維持しつつ、各トークンごとにパラメータの一部のみを疎に活性化することで、Transformerアーキテクチャの計算オーバーヘッドを削減する効果的なアプローチとして注目されています。このパラダイムは最近、Vision-Language Models（VLMs）にも拡張され、計算コストを抑えたままスケーラブルなマルチモーダル理解を可能にしています。しかし、広く採用されている決定論的なtop-Kルーティング機構は、より最適なエキスパートの組み合わせを見落とす可能性があり、エキスパートの過学習につながり得ます。この制約に対処し、エキスパート選択の多様性を改善するために、本研究ではMoE-GRPOを提案します。MoEベースVLMにおけるエキスパート・ルーティングを最適化するための、強化学習（RL）に基づくフレームワークです。具体的には、エキスパート選択を逐次意思決定問題として定式化し、Group Relative Policy Optimization（GRPO）を用いて最適化します。これにより、探索と報酬に基づくフィードバックを通じて、モデルが適応的なエキスパート・ルーティング方策を学習できるようにします。さらに、モダリティに応じたルータ誘導を導入します。これは、特定のモダリティに対して頻繁に活性化されないエキスパートを探索することを抑制することで、学習の安定性と効率を高めます。マルチモーダル画像および動画のベンチマークに対する大規模な実験の結果、MoE-GRPOは、多様性の高いエキスパート選択を促進することで、標準的なtop-Kルーティングおよびその派生手法を一貫して上回り、エキスパートの過学習を緩和し、タスクレベルでのエキスパート特化を可能にすることが示されました。

「船酔いさせる本」予定を早め先行リリース poevel L'automne à Arles 《アルルの秋》入れ子の吹雪が舞う ! Gemini に読ませたら !

note

amiami_@Japan

note

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

note

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する

note

Geminiを非表示にして快適な検索環境を取り戻す：PC・スマホ・Workspace別の消し方

note

MoE-GRPO：視覚言語モデルにおける強化学習でMixture-of-Expertsを最適化する

要点

Abstract

関連記事

「船酔いさせる本」予定を早め先行リリース poevel L'automne à Arles 《アルルの秋》入れ子の吹雪が舞う ! Gemini に読ませたら !

amiami_@Japan

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する

Geminiを非表示にして快適な検索環境を取り戻す：PC・スマホ・Workspace別の消し方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

「船酔いさせる本」予定を早め先行リリース poevel L'automne à Arles 《アルルの秋》入れ子の吹雪が舞う ! Gemini に読ませたら !

amiami_@Japan

AIツールを3つ以上並行して使うと「脳の疲労」を引き起こして生産性が低下する可能性

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する​

Geminiを非表示にして快適な検索環境を取り戻す：PC・スマホ・Workspace別の消し方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

【AI心理臨床】生涯の安全基地をポケットに ─ 感情の捏ね鉢を携帯する