構造化マルチモーダル表現に向けて:Mixture-of-Expertsによる専門化・選択・疎化

arXiv cs.LG / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、固定的な埋め込みではなく、タスクに応じてルーティングされる意味的エキスパートを用いる構造的枠組みとしてS3(Specialization, Selection, Sparsification)を提案します。
  • S3は、共有潜在空間上で概念レベルのエキスパートを作る専門化(Specialization)、タスクごとにルーティングを適応させる選択(Selection)、有用性の低い経路を刈り込んで表現をコンパクトにする疎化(Sparsification)を組み合わせます。
  • 4つのMultiBenchベンチマークでの実験では、S3が精度を向上させるだけでなく、疎化度と性能の間に「逆U字型」の関係が見られ、中間的な疎化で最大性能になることが示されています。
  • 著者らは、マルチモーダル表現を「選択可能な意味構成要素」として構造化することが、対照学習やInfoMax型アプローチに対する実践的かつ原理に基づく代替になり得ると主張しています。
  • この研究は、情報量を最小化しつつも(ただし)構造を正しく設計することで、効率的かつ効果的なマルチモーダル表現が実現できるという考えを強調しています。

概要: 本論文では、構造的な観点からマルチモーダル学習を再考する枠組みであるS3(Specialization、Selection、Sparsification)を提案する。固定された埋め込みにすべての信号をエンコードする代わりに、S3はマルチモーダル入力を意味的なエキスパート(専門家)に分解し、各タスクごとに選択的にルーティングする。Specializationは共有された潜在空間において概念レベルのエキスパートを形成し、Selectionはタスク固有の必要性に合わせてルーティングを適応させ、Sparsificationは有用性の低い経路を刈り込み、情報最小限のコンパクトな表現を得る。4つのMultiBenchベンチマークにおいて、S3は精度を向上させ、スパース性と性能の間に一貫した逆U字型のトレンドを示し、中間スパース性で性能が最大となる。これらの結果は、マルチモーダル表現を選択可能な意味的コンポーネントとして構造化することが、対照学習やInfoMaxに基づくアプローチに対する、実用的かつ原理に基づいた代替手段となり得ることを示唆している。