AI Navigate

MoLoRA: トークンごとのアダプタ割り当てによる構成可能な特化

arXiv cs.CL / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、従来の複数アダプタシステムが、全シーケンスを単一のアダプタへルーティングする設計は、マルチモーダルおよび混在能力タスクに対して失敗することを主張し、トークンごとのルーティングを提案してトークンをドメイン特化のアダプタへ割り当てる。
  • MoLoRA(Mixture of LoRA)という、複数のドメイン特化アダプタをロードし、各トークンに適切なアダプタを選択する学習済みのルータを用いるフレームワークを導入する。
  • トークンごとのルーティングは理論的に最適であることが示され、N個のトークンに対してはNの計算量を達成するのに対し、Kアダプタを用いたシーケンス単位のルーティングではK·Nとなる。実証的には、小型モデルが推論ベンチマークで大規模モデルを凌ぐことを可能にし(Qwen3-1.7Bは4つのタスクでQwen3-8Bを上回り、かつ約4.7倍小さい)。
  • このアプローチはモジュール式で推論時の専門化を実現する。焦点を絞ったLoRAを独立に訓練し、それらを再訓練なしに組み合わせ、新しいアダプタを読み込むだけで新機能を追加できる。

要約: 複数アダプタ提供システムは、全てのシーケンスを単一のアダプタへルーティングし、複数のドメインにまたがるリクエストを横断する際に選択を迫ります。この仮定は、次の2つの重要な設定で崩れます: (1) マルチモーダル生成では、テキストと画像のトークンが同じシーケンス内で異なるアダプタを必要とする場合、(2) 「この方程式を解くコードを書いて」といった、複数の専門アダプタの専門知識を要する混成能力のリクエスト。私たちはトークンごとのルーティングを導入します。これは、個々のトークンを、語彙構造に基づいて(マルチモーダルモデルの場合)または学習されたゲート(意味的特化のため)に基づいてアダプタへルーティングします。トークンごとのルーティングは証明可能に最適で、N個のトークンに対して計算量はN、K種類のアダプタを用いた1シーケンスごとのルーティングでは計算量がK×Nとなります。私たちの主要な貢献は MoLoRA(Mixture of LoRA)で、組成可能な特化を可能にします。つまり、複数のドメイン特化アダプタを読み込み、学習済みのルーターがトークンごとに適切なアダプタを選択します。特化はスケールを著しく凌駕することを示します。MoLoRA は Qwen3-1.7B が 4つの推論ベンチマークで Qwen3-8B を上回りつつ、サイズは約 4.7 倍小さくなることを可能にします。これにより推論時にモジュラーな専門知識を実現できます。焦点を絞った LoRA を独立に学習させ、それらを再訓練なしで組み合わせ、新しい機能を追加するには新しいアダプタを単にロードするだけです。