LiME:効率的なマルチモーダル多タスク学習のための軽量Mixture of Experts

arXiv cs.LG / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • LiMEは、MoE-PEFTの課題である「専門家(expert)ごとのアダプタ複製による学習可能パラメータの線形増加」を、共有PEFTモジュールの軽量な出力モジュレーションで解決する手法として提案されています。
  • LiMEはルータ用の学習パラメータを不要にする「ゼロパラメータ・ルーティング」を導入し、既存の凍結表現や適応済み表現を活用して層ごとのrouterパラメータ学習を回避します。
  • 理論的には、専門家数を増やすほどタスク関連情報を保持しやすくなることと、モジュレーションがexpert固有のPEFTを有界誤差で近似できることを示しています。
  • MMT-47(テキスト/画像/動画の47タスク)で、LiMEは既存MoE-PEFT比で最大4倍少ない学習可能パラメータと最大29%高速な学習を達成しつつ、競争的または優越する性能を報告しています。

Abstract

MoE-PEFT(Mixture of Experts とパラメータ効率の高い微調整)手法は、マルチタスク適応のために専門家混合とパラメータ効率の高い微調整を組み合わせますが、専門家ごとに別々のアダプタが必要なため、訓練可能パラメータ数が専門家数に対して線形に増大し、アダプタベースのアーキテクチャへの適用可能性が制限されます。そこで我々は LiME(Lightweight Mixture of Experts)を提案します。LiME は、アダプタの複製ではなく軽量なモジュレーションによって専門家の専門化を実現し、専門家ごとの専門分担を保ちながら、アダプタの複製に伴うパラメータ増を抑えます。別々のアダプタの代わりに、LiME は単一の共有 PEFT モジュールを用い、その出力を軽量な専門家ベクトルでモジュレートすることで、専門家パラメータを削減しつつ、任意の PEFT 手法へと一般化できるようにします。特に LiME は、層ごとに通常必要とされる学習済みルータパラメータを排除するために、既存の凍結表現と適応表現を活用することで、ゼロパラメータのルーティングを導入します。理論的に、(i) より多くの専門家はより多くのタスクに関連する情報を保持し、(ii) モジュレーションが、有界な誤差でフルの専門家固有 PEFT を近似することを証明します。さらに LiME は、n-gram ウィンドウによるルーティングと、ルーティングの確信度に基づく適応的な専門家選択(Auto Top-K)を組み込みます。テキスト、画像、動画にまたがる 47 タスクを含むマルチモーダル・マルチタスクベンチマーク MMT-47 に関する実験により、LiME は、対応する MoE-PEFT のベースラインと比べて、最大で訓練可能パラメータを 4 倍少なくしつつ、最大で 29% 速い学習を実現し、競争的、またはそれ以上の性能を達成することが示されます。