マルチモーダル大規模言語モデルの連合学習による事前学習への一歩

arXiv cs.LG / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダルLLMの事前学習が飽和した公開データによって制約されていると主張し、プライバシーを保護しつつマルチモーダルのデータサイロを活用するために連合学習を用いることを提案している。
Federated MLLM Alignment（Fed-MA）という課題を導入し、視覚エンコーダとLLMを凍結した上で、軽量な事前学習段階でクロスモーダル・プロジェクタのみを共同学習する。
著者らは、連合事前学習において2つの重要な問題を特定する—ローカル・プロジェクタを集約する際に生じるパラメータ干渉と、ワンパスの協調的なSGDにおける勾配の振動である。
これらに対処するために、Fed-CMPを提案する。Canonical Reliability-Aware Aggregationを用いて、共有されたアラインメント基底を介して分解されたクライアント・プロジェクタを信頼性（reliability）で重み付けしながら統合する。また、Orthogonality-Preserved Momentumにより幾何学的構造を保持しつつ最適化を安定化させる。
公開データセットを用いた4つの連合事前学習シナリオにまたがる実験により、Fed-CMPが既存の連合事前学習ベースラインを大幅に上回ることが示されている。

Abstract

多モーダル大規模言語モデル（MLLM）の急速な進化は、高品質な公開データの飽和によって行き詰まっている一方で、膨大な量の多様なモーダルデータが、プライバシーに配慮したサイロ内に閉じ込められておりアクセスできないままです。連合学習（FL）は、これらの分散したリソースを解き放つ有望な解決策を提供しますが、既存研究は主として微調整に焦点を当てており、基盤となる事前学習フェーズはほとんど未検討のままです。本論文では、視覚エンコーダとLLMを凍結し、クロスモーダル・プロジェクタを協調的に学習する軽量な事前学習パラダイムである、連合MLLMアライメント（Fed-MA）タスクを形式的に導入します。この設定における2つの重要な課題を特定します：（i）ローカル・プロジェクタを集約する際のパラメータ干渉、（ii）ワンパス協調的SGDにおける勾配の振動です。これらの課題に対処するため、連合MLLM事前学習のための先駆的フレームワークであるFed-CMPを提案します。Fed-CMPは、Canonical Reliability-Aware Aggregation（正準的信頼性を考慮した集約）を用いて、クライアントのプロジェクタを共有アライメント基底とクライアント固有の係数に分解するための正準空間を構成し、その後、信頼性に基づいて重み付けした融合を行うことでパラメータ干渉を抑制します。さらにFed-CMPは、直交射影によって共有アライメント基底にモメンタムを適用するOrthogonality-Preserved Momentum（直交性を保持するモメンタム）を導入し、幾何学的構造を維持しながら、過去の最適化方向を蓄積します。公開データセットに基づいて4つの連合事前学習シナリオを構築し、広範な実験により、Fed-CMPが既存のベースラインを大幅に上回ることを検証します。