セマンティック幾何の保持を通じた視覚-言語モデルの継続学習
arXiv cs.CV / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、継続学習におけるセマンティック幾何のドリフトを重要な課題として特定し、それを解決するための例示なしの手法を提案する。
- Semantic Geometry Preservation for Continual Learning (SeGP-CL) を導入し、デュアルターゲット型射影勾配降下法(DPGD)を用いて敵対的アンカーのコンパクト集合を構築し、新タスクのシードを旧クラスのセマンティクスへ導く一方、生の視覚空間では忠実性を保つ。
- SeGP-CLによる訓練は、アンカー誘導型クロスモーダル幾何蒸留(ACGD)でクロスモーダル構造を保持し、軽量なテキストセマンティック幾何正則化(TSGR)でテキスト参照フレームを安定化させる。
- 五つの継続学習ベンチマークでの実験により、安定性と前方転移が改善され、視覚-言語モデルのセマンティック幾何をより良く保持しつつ、最先端の結果を達成した。
本文: arXiv:2603.12055v1 アナウンス種別: 新規
要旨:
- 事前学習済みの視覚-言語モデル(VLM)の継続学習は壊滅的忘却を起こしやすいが、現在のアプローチは事前学習および前段階から継承されたクロスモーダルなセマンティック幾何を明示的に保持することなく新タスクへ適応し、新タスクの監督が幾何学的歪みを誘発することを許している。
- 私たちは、最も顕著なドリフトが旧-新のセマンティックインターフェース近傍の脆弱な領域に集中する傾向があり、共有された視覚パターンが新しいテキスト意味論によって容易に再説明される場所で生じることを観察する。
- この exemplar-free 制約のもとでこれに対処するため、継続学習のためのセマンティック幾何保存(SeGP-CL)を提案する。SeGP-CL はまず、デュアルターゲット型射影勾配降下法(DPGD)を用いて敵対的アンカーのコンパクトな集合を構築し、新タスクのシードを選択して旧クラスのセマンティクスへ向かわせつつ、生データ空間では忠実さを保つ。
- 訓練中は、アンカー誘導型クロスモーダル幾何蒸留(ACGD)によってクロスモーダル構造を保持し、軽量なテキストセманティック幾何正則化(TSGR)を用いてタスク間でのテキスト参照フレームを安定化させる。
- 訓練後、アンカーによって生じた生データ空間のドリフトを推定し、旧視覚プロトタイプを転送するために、クロスモーダルと視覚の手がかりを統合したデュアルパス推論を行う。
- 五つの継続学習ベンチマークに関する広範な実験は、SeGP-CL が安定性と前方転移を一貫して向上させ、VLM のセマンティック幾何をより適切に保持しつつ、最先端の性能を達成することを示している。