Abstract
現代の深層学習では通常、モデルを別個の成果物として扱います。すなわち、学習は独立して行われ、特定の目的に特化し、改善されたバージョンが現れたときに置き換えられます。本論文は、代替パラダイムとしてのモデルマージを研究します。モデルマージとは、最適化をほとんど行わない、あるいはまったく行わない形で、重み空間上で独立に学習されたニューラルネットワークを直接組み合わせるものであり、元の学習データへのアクセスを必要としません。
本論文では2つの主要な領域を考察します。単一タスク設定では、モデルは同じ目的関数を共有しつつ初期化が異なります。この状況において、Frank-Wolfe最適化に基づくサイクル整合型マージアルゴリズムであるC^2M^3を提案します。C^2M^3は、複数のネットワークを参照(リファレンス)を必要としない共有のパラメータ空間へ整列させ、いずれの個別モデルも特別扱いすることなく、重み平均を意味のあるものにします。
複数タスク設定では、共通の事前学習初期化から出発して、モデルが異なる下流タスクのために微調整されます。この場合、まずタスクベクトルを近似勾配として捉える理論的説明を構築します。これにより、タスク演算が有効である理由と、その限界の両方が説明されます。この見方に基づいて、タスクベクトルが勾配の持つ低ランク構造を継承することを示し、さらにTSV(Task Singular Vectors:タスク特異ベクトル)を導入します。TSV-Mergeにより、圧縮と干渉の低減を可能にする分解です。次に、TSVの幾何に基づいて推論時にタスクに関連する部分空間を選択する、入力適応型ルーティング手法であるMASSを提示します。最後に、MERGE^3を導入します。これは、Item Response Theory(項目反応理論)を用いて、解の質を維持しつつ評価コストを最大50\times削減する進化的マージの枠組みです。
これらの貢献により、モデルマージに関する理論的およびアルゴリズム的基盤が提供されます。学習された能力を、モデル間で合成し、再利用し、拡張できるというパラダイムを支えるものです。