AI Navigate

ReMix: LLMファインチューニングにおけるLoRA混成のための強化ルーティング

arXiv cs.LG / 2026/3/12

📰 ニュースModels & Research

要点

  • LoRAの混成は、ルーティング重みの不均衡に悩まされ、わずか数個のLoRAが支配して表現力を制限します。
  • ReMixは学習不能なルーティング重みを導入して、全てのアクティブなLoRAを効果的に保ち、単一のLoRAによる支配を防ぎます。
  • 学習不能な重みを用いた訓練には、reinforce leave-one-out(RLOO)に基づく公正な勾配推定量を用い、監督損失を報酬として扱います。
  • 広範な実験により、活性化パラメータ数が同程度で最先端のパラメータ効率型ファインチューニング手法を大幅に上回ることを示しています。

要旨: ローランクアダプター(LoRAs)は、事前学習済みモデルに訓練可能な低秩行列を挿入して新しいタスクに適応させる、パラメータ効率の高いファインチューニング手法です。Mixture-of-LoRAsモデルは、各レイヤの入力をそのレイヤの専門化されたLoRAの小さなサブセットへルーティングすることにより、ニューラルネットワークを効率的に拡張します。既存のMixture-of-LoRAsルータは、エンドツーエンド訓練を可能にするため、各LoRAに学習済みのルーティング重みを割り当てます。経験的には有望であるにもかかわらず、実務ではルーティング重みはLoRA間で極端に不均衡であることが多く、1つまたは2つのLoRAがしばしば重みを支配します。これは本質的に有効なLoRAsの数を制限し、既存のLoRAsの混成モデルの表現力を著しく妨げます。本研究では、この弱点を学習可能なルーティング重みの性質に起因すると考え、ルータの基本設計を再考します。この重要な課題に対処するため、ReMix(Reinforcement Routing for Mixture-of-LoRAs)と呼ぶ新しいルータを設計します。我々の要点は、学習不能なルーティング重みを用いて、全てのアクティブLoRAを等しく効果的にし、いかなるLoRAもルーティング重みを支配しないようにすることです。しかし、学習不能なルーティング重みのため、私たちのルータは直接勾配降下法で訓練することはできません。したがって、RLOO(reinforce leave-one-out)手法を用いた公正な勾配推定量を提案します。監督損失を報酬とみなし、ルータを強化学習の方策として扱います。この勾配推定量は、ReMix の予測性能を向上させるためにトレーニング計算量を拡張することも可能です。広範な実験により、提案する ReMix は、同程度の活性化パラメータ数のもとで、最先端のパラメータ効率型ファインチューニング手法を大幅に上回ることを示しています。