要旨: 中央集権型のマルチモーダル学習では、言語・音響・視覚の信号を単一の融合表現に圧縮して予測に用いることが一般的です。これは有効である一方で、次の2つの制約があります。1つ目はモダリティ優位性で、最適化が最も抵抗の少ない経路へと引き寄せられ、情報を含むが弱いモダリティが無視されてしまう問題です。2つ目は見せかけのモダリティ結合で、モデルが偶発的なクロスモーダル相関に過適合してしまう問題です。これらに対処するため、モダリティ固有のエンコーディング後に2段階のプロトコルを適用する統制された協調パラダイムであるGroup Cognition Learning(GCL)を提案します。第1段階(選択的相互作用)では、ルーティング・エージェントが指向性のある相互作用経路を提案し、監査エージェントがサンプルごとのゲートを割り当てます。これにより、正の限界予測利得をもたらす交換を強調し、冗長な結合を抑制します。第2段階(コンセンサス形成)では、公開因子エージェントが明示的な共有因子を維持し、集約エージェントが、各モダリティ表現を専門化チャネルとして保持したまま、寄与を意識した重み付けにより最終予測を生成します。CMU-MOSI、CMU-MOSEI、MIntRecに対する大規模な実験により、GCLが優位性と結合を緩和し、回帰ベンチマークと分類ベンチマークの両方で最先端の結果を達成することが示されます。分析実験により、設計の有効性もさらに確認されています。
グループ・コグニション・ラーニング:統制された2段階エージェント協調であらゆるものをより良くする
arXiv cs.LG / 2026/5/4
📰 ニュースModels & Research
要点
- 本論文は、中央集約型のマルチモーダル学習における主要な課題として、モダリティ優位(モデルが扱いやすい信号へ最適化が偏る)と、誤ったモダリティ間結合(偶然のクロスモーダル相関に過学習する)を挙げています。
- モダリティ固有のエンコーダの後に適用する統制付きの2段階協調フレームワークとして、Group Cognition Learning(GCL)を提案します。
- 1段階目(Selective Interaction)では、Routing Agentが相互作用ルートを提案し、Auditing Agentがサンプルごとのゲートを用いて、正の限界予測向上をもたらすやり取りを強調しつつ、冗長な結合を抑制します。
- 2段階目(Consensus Formation)では、Public-Factor Agentが明示的な共有因子を維持し、Aggregation Agentが寄与を考慮した重み付けで最終予測を生成しつつ、各モダリティ表現を専門化チャネルとして保持します。
- CMU-MOSI、CMU-MOSEI、MIntRecでの実験により、GCLが優位性と結合の両方を軽減し、回帰・分類のベンチマークで最先端性能を達成することが示され、さらに設計の有効性を裏付ける分析実験も示されています。



