非線形マルチアダプターを用いたビジョン-言語モデルによるシンプルで効率的な増分学習フレームワーク

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • SimEは、ILのトレーニング効率の向上、メモリーバンクへの依存、バックボーン要件に対処するため、ビジョン-言語モデル内のアダプターを用いた単純で効率的な増分学習フレームワークです。
  • 本論文は、アダプター接続数とIL性能との間には非線形の相関関係があることを明らかにしています。トランスフォーマーブロック間の接続を増やすことは性能を改善する一方、より小さな増分ステップの間でブロック内の適応接続を増やすと、IL能力を損なう可能性があります。
  • 実証的な結果として、SimEはTinyImageNetで従来法を9.6%上回り、CIFAR-100では他のCLIPベースの手法を5.3%上回っています。
  • 著者らは、SimEのエンコーダを、より大規模なデータセット(例:LAION2B)で訓練されたCLIPモデルと、より強力なアーキテクチャ(例:ViT-L/14)に置換することで、ゼロショット能力を向上させることを提案しています。
Incremental Learning(IL)は、以前に獲得した知識を保持しつつ新しいタスクを学習することを目的としています。事前学習済みのビジョン-言語モデルのゼロショット学習機能をIL手法に組み込むことは、顕著な進歩をもたらしました。しかし、これらの手法には3つの主要な課題があります: (1) 訓練効率の向上が必要であること、 (2) 以前のデータを保存するためのメモリーバンクへの依存、(3) モデルの能力を向上させるために強力なバックボーンが必要であること。 本研究では、ILタスク専用に設計されたアダプターを備えたビジョン-言語モデルを用いる、シンプルで効率的なフレームワーク SimE を提案します。 顕著な現象を報告します:適応型アダプター接続の数とモデルのIL能力との間には非線形の相関関係が存在します。 トランスフォーマーブロック間のアダプター接続を増やすことは性能を向上させますが、より小さな増分ステップの間でブロック内の適応接続を増やすと、IL能力が向上するわけではなく、むしろ低下する可能性があります。 広範な実験結果は、SimE が TinyImageNet で従来法を9.6%上回り、 CIFAR-100 では他の CLIP ベース手法を5.3%上回ることを示しています。 さらに、CLIP のゼロショット機能の活用を高めるための系統的な研究を実施します。 SimE のエンコーダを、より大規模なデータセット(例:LAION2B)で訓練された CLIP モデルと、より強力なアーキテクチャ(例:ViT-L/14)に置換することを提案します。