マルチモーダル大規模言語モデルの連合学習による事前学習への一歩
arXiv cs.LG / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダルLLMの事前学習が飽和した公開データによって制約されていると主張し、プライバシーを保護しつつマルチモーダルのデータサイロを活用するために連合学習を用いることを提案している。
- Federated MLLM Alignment(Fed-MA)という課題を導入し、視覚エンコーダとLLMを凍結した上で、軽量な事前学習段階でクロスモーダル・プロジェクタのみを共同学習する。
- 著者らは、連合事前学習において2つの重要な問題を特定する—ローカル・プロジェクタを集約する際に生じるパラメータ干渉と、ワンパスの協調的なSGDにおける勾配の振動である。
- これらに対処するために、Fed-CMPを提案する。Canonical Reliability-Aware Aggregationを用いて、共有されたアラインメント基底を介して分解されたクライアント・プロジェクタを信頼性(reliability)で重み付けしながら統合する。また、Orthogonality-Preserved Momentumにより幾何学的構造を保持しつつ最適化を安定化させる。
- 公開データセットを用いた4つの連合事前学習シナリオにまたがる実験により、Fed-CMPが既存の連合事前学習ベースラインを大幅に上回ることが示されている。




