要旨: 事前学習と微調整のパラダイムは、モデル適応の支配的なアプローチとなっています。しかし、従来の事前学習では通常、固定スケールのモデルが得られるのに対し、実運用の際にはしばしばさまざまなサイズのモデルが必要となり、ターゲットのモデルスケールが事前学習で用いられたものと異なる場合に、その限界が露呈します。これに対処するために、本研究では、事前学習中に構造化された制約を課す制約ベースの新しい事前学習パラダイムを提案します。これにより、サイズに依存しない知識を再利用可能な重みテンプレートへと分離し、サイズ特有の適応は軽量な重みスカラーに割り当てます。これによって、可変サイズのモデル初期化をマルチタスク適応問題として再定式化します。このパラダイムのもとで、さらにKroneckerベースの制約を用いて事前学習プロセスを正則化するWeiTを導入します。具体的には、モデルパラメータは、連結と加重集約によって重みテンプレートの合成として表現され、軽量な重みスカラーによって制御される適応的な接続が用意されます。これらのスカラーのパラメータは限られたデータから学習されます。この設計により、多様な下流スケールにまたがってモデル重みを柔軟かつ効率的に構築できるようになります。大規模な実験により、WeiTの効率性と有効性が示されました。画像分類、画像生成、身体化制御を含む幅広い知覚および身体化学習タスクにおいて、深さと幅が異なるモデルを初期化する際に、先端的な性能を達成しています。さらに、その有効性は、TransformerベースおよびConvolutionベースの両方のアーキテクチャにまで一般化されており、フル訓練の場合でも一貫してより速い収束と改善された性能を実現します。
制約ベースの事前学習:構造化された制約からスケーラブルなモデル初期化へ
arXiv cs.LG / 2026/4/17
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- この論文は、従来の事前学習では固定スケールのモデルが得られがちであり、実運用で学習時と異なるモデルサイズが必要になると性能が出にくい点を指摘しています。
- サイズに依存しない知識を再利用可能な重みテンプレートとして分離し、サイズ固有の適応は軽量な重みスカラーで担う「制約ベースの事前学習」枠組みを提案しています。
- 可変サイズのモデル初期化をマルチタスクの適応問題として捉え直すことで、下流タスクのスケールに合わせて柔軟に重みを構成できるようにします。
- 提案手法のWeiTでは、Kroneckerベースの制約で事前学習を正則化し、パラメータをテンプレートの連結と加重集約で表現しつつ、その接続は限られたデータから学習される軽量な重みスカラーで制御します。
- 大規模な実験では、知覚系および身体性を伴う学習タスク(画像分類・画像生成・身体制御など)で、深さ・幅の異なるモデルの初期化に対して最先端性能を報告し、Transformer型と畳み込み型の両方で収束の高速化と性能向上が示されています(フルトレーニングでも効果が維持)。



