Chain-of-Models Pre-Training: Rethinking Training Acceleration of Vision Foundation Models

arXiv cs.CV / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、個々のモデルを独立に学習するのではなく、ビジョン財団モデルの「モデルファミリ全体」を対象にした学習加速手法である Chain-of-Models Pre-Training（CoM-PT）を提案する。
CoM-PT は、モデルサイズの昇順に従って「モデルチェーン」を構築し、最小のモデルのみを完全に事前学習する。以降の大きなモデルは、パラメータ空間と特徴空間の両方で知識を再利用しながら、逐次的な逆向きの知識移転によって学習する。
45のデータセットに対する実験（ゼロショットおよび微調整）により、CoM-PT が概ねベースラインより良い性能を達成しつつ、学習コストを大幅に削減できることを示す。
本手法は、学習するモデル数を増やすことで全体の効率が向上するような、効率的なスケーリング挙動も示す。たとえば ViT-L の最大モデル構成では、計算量の複雑性を最大 72% 削減できる場合がある。
著者らは、モデルファミリのサイズが増えるにつれて（例：3→4→7 モデル）、加速比が大きく跳ね上がり得ることを報告している。また、大規模言語モデルの事前学習のような計算量が重い設定に対する拡張案とともに、コードをオープンソース化している。

概要: 本論文では、視覚基盤モデル（VFM）向けの性能損失なしで学習を高速化する新しい手法「Chain-of-Models Pre-Training（CoM-PT）」を提案します。本アプローチは、その根本的な動機において既存の高速化手法と本質的に異なります。すなわち、各モデルを個別に最適化するのではなく、モデルファミリーのレベルで学習パイプラインを加速し、モデルファミリーが拡大しても効率よくスケールするように設計されています。具体的には、CoM-PTは、モデルファミリーに対して、モデルサイズの昇順に並べた事前学習のシーケンスを設定し、それを「モデルチェーン」と呼びます。このチェーンでは、最小のモデルだけが標準的な個別事前学習を受け、他のモデルは、より小さい前駆モデルからの連続的な逆知識転移によって効率的に学習されます。このとき、パラメータ空間および特徴空間における知識を共同で再利用します。その結果、CoM-PTは、すべてのモデルが標準的な個別学習よりも概ね優れた性能を達成できる一方で、学習コストを大幅に削減でき、さらにその有効性は、ゼロショットおよびファインチューニングのタスクをまたぐ45のデータセットにわたって広範に検証されています。特に、その効率的なスケーリング特性が生む注目すべき現象として、「より多くのモデルを学習すると、効率がむしろ高くなる」という点が挙げられます。例えば、CC3Mで事前学習した場合：i）最大のモデルとしてViT-Lを与え、モデルチェーンにより小さいモデルを段階的に前置すると、計算複雑性が最大72%減少します。ii）固定されたモデルサイズ範囲の中で、VFMファミリーが3モデル、4モデル、7モデルへとスケールすると、CoM-PTの加速比が顕著な飛躍を見せます。すなわち、4.13Xから5.68X、そして7.09Xへと増大します。CoM-PTは特定の事前学習パラダイムに自然に非依存であるため、大規模言語モデルの事前学習のような、より計算集約的なシナリオにおける拡張を促すべく、コードをオープンソースとして公開します。