DeepWeightFlow:ニューラルネットワーク重みを生成するための再ベースライン付きフローマッチング

arXiv stat.ML / 2026/5/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • DeepWeightFlowは、重み空間でニューラルネットワークの“完全な重み”を直接生成するフローマッチング系の生成モデルを提案し、部分的な重み生成に限られる従来手法や、生成速度の遅さ/微調整(ファインチューニング)を要する手法の課題に取り組みます。
  • この手法は高精度であり、さまざまなアーキテクチャ、ネットワーク規模、データモダリティにわたってスケールすることを主張しており、生成されたネットワークは良好な性能を得るのに微調整を不要とすると述べられています。
  • ニューラルネットワークに存在する置換対称性の影響を抑え、大規模モデルでの効率を高めるために、生成重みの文脈でGit Re-BasinとTransFusionによる正準化(カノニカライゼーション)を適用します。
  • さらに、転移学習での優れた性能と高速なアンサンブル生成を報告しており、拡散ベースの方法より大幅に速く、数百のニューラルネットワークを数分で生成できるとしています。
  • 総じて本研究は、多様なニューラルネットワーク集合をより効率的かつスケーラブルに生成できる道を開き、下流のモデル開発や実験を加速することを目指しています。

Abstract

ニューラルネットワークの重みのための効率的かつ効果的な生成モデルを構築することは、非常に大きな関心を集めている研究分野である一方、現代のニューラルネットワークの高次元の重み空間とそれらが持つ対称性によって生じる課題に直面している。これまでのいくつかの生成モデルは、特にResNetやViTのようなより大規模なモデルにおいて、ニューラルネットワークの重みの一部のみを生成することに限られている。重み全体を生成できるものでも、生成速度に課題があるか、生成したモデルに対する微調整(finetuning)が必要になる。 本研究では、DeepWeightFlow を提案する。DeepWeightFlow は、重み空間上で直接動作するフローマッチング(Flow Matching)モデルであり、さまざまなアーキテクチャ、ニューラルネットワークのサイズ、データモダリティに対して、多様で高精度なニューラルネットワークの重みを生成する。DeepWeightFlow が生成するニューラルネットワークは、良好に動作させるために微調整を必要とせず、大規模なネットワークへもスケール可能である。生成的な重みモデルの文脈において、ニューラルネットワークの置換対称性が与える影響を考慮し、より大きなモデルサイズに対する生成効率を改善するために、我々はニューラルネットワークの正準化に Git Re-Basin と TransFusion を適用する。生成されたネットワークは転移学習において優れており、数百のニューラルネットワークからなるアンサンブルを数分で生成でき、拡散ベースの手法を大きく上回る。DeepWeightFlow モデルは、多様なニューラルネットワーク群をより効率的かつスケーラブルに生成するための道を切り拓く。