モデルマージ:基礎とアルゴリズム

arXiv cs.LG / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、独立に学習したニューラルネットワークを重み空間上で直接結合する「モデルマージ」という新しいパラダイムを提案し、原データへのアクセスや追加の最適化をほぼ不要にすることを目指しています。
  • 同一の目的関数を持つ一方で初期化が異なる単一タスク設定では、Frank-Wolfe最適化に基づくサイクル整合型アルゴリズム C$^2$M$^3$ を導入し、複数モデルを共有されたパラメータ空間へ整合させることで重み平均を有意味にします。
  • 共通の事前学習初期化から異なる下流タスクへ微調整されたマルチタスク設定では、「タスクベクトル」を近似勾配として理論化し、タスク算術の有効性と限界を説明した上で、低ランク構造を活用する TSV(Task Singular Vectors)と TSV-Merge を提示します。
  • さらに TSV の幾何に基づいて推論時にタスクに関連する部分空間を選択する入力適応型ルーティング MASS、そして Item Response Theory を用いて評価コストを最大 50 倍削減しつつ解の品質を保つ進化的枠組み MERGE$^3$ を示します。
  • 全体として、本研究は学習済み能力を複数モデル間で合成・再利用・拡張できるパラダイムを支える理論的およびアルゴリズム的な基盤を提供します。

Abstract

現代の深層学習では通常、モデルを別個の成果物として扱います。すなわち、学習は独立して行われ、特定の目的に特化し、改善されたバージョンが現れたときに置き換えられます。本論文は、代替パラダイムとしてのモデルマージを研究します。モデルマージとは、最適化をほとんど行わない、あるいはまったく行わない形で、重み空間上で独立に学習されたニューラルネットワークを直接組み合わせるものであり、元の学習データへのアクセスを必要としません。 本論文では2つの主要な領域を考察します。単一タスク設定では、モデルは同じ目的関数を共有しつつ初期化が異なります。この状況において、Frank-Wolfe最適化に基づくサイクル整合型マージアルゴリズムであるC^2M^3を提案します。C^2M^3は、複数のネットワークを参照(リファレンス)を必要としない共有のパラメータ空間へ整列させ、いずれの個別モデルも特別扱いすることなく、重み平均を意味のあるものにします。 複数タスク設定では、共通の事前学習初期化から出発して、モデルが異なる下流タスクのために微調整されます。この場合、まずタスクベクトルを近似勾配として捉える理論的説明を構築します。これにより、タスク演算が有効である理由と、その限界の両方が説明されます。この見方に基づいて、タスクベクトルが勾配の持つ低ランク構造を継承することを示し、さらにTSV(Task Singular Vectors:タスク特異ベクトル)を導入します。TSV-Mergeにより、圧縮と干渉の低減を可能にする分解です。次に、TSVの幾何に基づいて推論時にタスクに関連する部分空間を選択する、入力適応型ルーティング手法であるMASSを提示します。最後に、MERGE^3を導入します。これは、Item Response Theory(項目反応理論)を用いて、解の質を維持しつつ評価コストを最大50\times削減する進化的マージの枠組みです。 これらの貢献により、モデルマージに関する理論的およびアルゴリズム的基盤が提供されます。学習された能力を、モデル間で合成し、再利用し、拡張できるというパラダイムを支えるものです。