Symbiotic-MoE: 生成と理解の相乗効果を解き明かす

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 画像生成を学習する大規模マルチモーダルモデルは、勾配の競合が深刻であるため、理解タスクにおいて破滅的忘却を起こし得る。これに動機づけられ、既存の混合(mixture)アーキテクチャを超える手法が求められている。
  • 本論文では、ネイティブなマルチモーダルMoE Transformer構造を維持しつつ、ゼロのパラメータ追加オーバーヘッドでタスク間の干渉を防ぐ統一的事前学習フレームワーク「Symbiotic-MoE」を提案する。
  • 標準的なMoEチューニングにおける失敗モード—ルーティング崩壊(routing collapse)—を特定する。これは、生成に関する勾配がエキスパート利用を支配してしまう現象であり、共有エキスパートを意味的ブリッジとして用いるモダリティ対応のエキスパート分離により対処する。
  • 進行的な学習戦略として、差分学習率および初期段階での勾配シールド(gradient shielding)を提案する。これにより、学習の初期に事前学習知識を保護し、その後で生成信号を理解のための建設的なフィードバックへと転換する。
  • 実験では、生成の収束がより速くなり、クロスモーダルな相乗効果が改善することが報告される。MMLUやOCRBenchを含むベンチマークでの向上が得られている。

要旨: 画像生成によって大規模マルチモーダルモデル(LMMs)を強化することは、多くの場合、重度の勾配競合によりタスク理解において壊滅的忘却を引き起こします。Mixture-of-Transformers(MoT)のような既存のパラダイムは、構造的な隔離によってこの競合を軽減しますが、本質的にはクロスモーダルの相乗効果を断ち切ってしまい、さらに能力が断片化するという問題があります。本研究では、パラメータ増加ゼロのオーバーヘッドでネイティブなマルチモーダルMixture-of-Experts(MoE)Transformerアーキテクチャ内のタスク干渉を解消する統一的な事前学習フレームワーク「Symbiotic-MoE」を提案します。まず、標準的なMoEのチューニングでは、生成的勾配が専門家(expert)の利用を支配することでルーティングが崩壊することを突き止めます。これに対処するため、Modality-Aware Expert Disentanglement(モダリティ認識の専門家非分離)を導入し、専門家をタスク固有のグループに分割しつつ、共有専門家をマルチモーダルな意味的ブリッジとして利用します。重要なのは、この設計によって共有専門家が生成タスクから微細な視覚的意味論を吸収し、それによってテキスト表現を豊かにできる点です。さらに最適化のために、差分学習率と初期段階での勾配シールドを備えたProgressive Training Strategy(漸進的学習戦略)を提案します。この機構は、事前学習された知識を初期の不安定さから保護するだけでなく、最終的には生成的シグナルを理解のための建設的なフィードバックへと変換します。広範な実験の結果、Symbiotic-MoEは急速な生成収束を達成しつつ、クロスモーダルの相乗効果を解き放ち、MMLUおよびOCRBenchにおける顕著な向上によって内在的な理解力を大きく押し上げることが示されました。