モデルマージの幾何をフレシェ平均で一般化する

arXiv cs.LG / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、追加学習なしでモデルを統合する際に、建築(アーキテクチャ)の対称性を考慮した対称性認識型の手法が必要だと主張しています。理由は、単純なパラメータ空間の平均化が対称性の影響で脆くなるためです。
  • 著者らは一般的な枠組みとして、「適切な多様体上で測地線距離の総和を最小化する」形でパラメータを選ぶ、フレシェ平均(Fréchet averaging)としてマージすることを提案します。
  • 重要な設計上の選択は「全体の幾何」、つまりメトリック(距離尺度)、多様体、距離近似の選び方であり、これが2つのモデルの「近さ」の定義を決めると強調しています。
  • 単純化の仮定のもとでは、フレシェ平均がフィッシャー・マージ(Fisher merging)を包含し一般化できることを示しています。
  • LoRA(低ランク・アダプタ)では別の幾何として商(クォーシャント)多様体の構造が導かれることを述べ、既存のLoRAマージ手法の限界を整理したうえで、実用的なアルゴリズムを提案し他手法との比較も行います。