非線形マルチアダプターを用いたビジョン-言語モデルによるシンプルで効率的な増分学習フレームワーク

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

SimEは、ILのトレーニング効率の向上、メモリーバンクへの依存、バックボーン要件に対処するため、ビジョン-言語モデル内のアダプターを用いた単純で効率的な増分学習フレームワークです。
本論文は、アダプター接続数とIL性能との間には非線形の相関関係があることを明らかにしています。トランスフォーマーブロック間の接続を増やすことは性能を改善する一方、より小さな増分ステップの間でブロック内の適応接続を増やすと、IL能力を損なう可能性があります。
実証的な結果として、SimEはTinyImageNetで従来法を9.6％上回り、CIFAR-100では他のCLIPベースの手法を5.3％上回っています。
著者らは、SimEのエンコーダを、より大規模なデータセット（例：LAION2B）で訓練されたCLIPモデルと、より強力なアーキテクチャ（例：ViT-L/14）に置換することで、ゼロショット能力を向上させることを提案しています。

Incremental Learning（IL）は、以前に獲得した知識を保持しつつ新しいタスクを学習することを目的としています。事前学習済みのビジョン-言語モデルのゼロショット学習機能をIL手法に組み込むことは、顕著な進歩をもたらしました。しかし、これらの手法には3つの主要な課題があります： (1) 訓練効率の向上が必要であること、 (2) 以前のデータを保存するためのメモリーバンクへの依存、(3) モデルの能力を向上させるために強力なバックボーンが必要であること。本研究では、ILタスク専用に設計されたアダプターを備えたビジョン-言語モデルを用いる、シンプルで効率的なフレームワーク SimE を提案します。顕著な現象を報告します：適応型アダプター接続の数とモデルのIL能力との間には非線形の相関関係が存在します。トランスフォーマーブロック間のアダプター接続を増やすことは性能を向上させますが、より小さな増分ステップの間でブロック内の適応接続を増やすと、IL能力が向上するわけではなく、むしろ低下する可能性があります。広範な実験結果は、SimE が TinyImageNet で従来法を9.6％上回り、 CIFAR-100 では他の CLIP ベース手法を5.3％上回ることを示しています。さらに、CLIP のゼロショット機能の活用を高めるための系統的な研究を実施します。 SimE のエンコーダを、より大規模なデータセット（例：LAION2B）で訓練された CLIP モデルと、より強力なアーキテクチャ（例：ViT-L/14）に置換することを提案します。

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

Innovatopia

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

GIGAZINE

非線形マルチアダプターを用いたビジョン-言語モデルによるシンプルで効率的な増分学習フレームワーク

要点

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer