DSCA: 生涯にわたるVLM編集のための動的サブスペース概念アラインメント

arXiv cs.CV / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Vision Language Models（VLM）に対する生涯学習型の知識編集に取り組み、連続的な編集が壊滅的忘却、推論の劣化、ならびにクロスモーダルのミスアラインメントを引き起こす点を明らかにする。
既存のVLM編集手法は、ゲーティング付きアダプタ、活性化の編集、あるいはパラメータのマージを用いる場合でも、依然として絡み合った共有表現空間上で動作するため、構造的な干渉の問題を抱えると主張する。
提案手法のDynamic Subspace Concept Alignment（DSCA）は、（逐次クラスタリングとPCAにより）表現空間を直交する意味的サブスペースに分解し、概念を構造的に分離するために、変換されたこれらの空間内でのみ編集を行う。
DSCAは基盤モデルを凍結し、多項からなる損失を用いてタスクの忠実性を保持し、編集の局所性を強制し、さらにクロスモーダルの整合性を維持することで、単一編集の成功率および長い系列での安定性において報告された改善を得る。

Abstract

モデル編集は、再学習を行わずに新しい概念を追加し、関連する情報を変更することで、知識を更新することを目的としています。生涯学習型の編集（lifelong editing）は困難な課題であり、特に視覚言語モデル（VLM）では、連続的な編集によって推論が劣化したり、モーダル間の不整合が生じたりするため、以前に学習した概念が破壊されやすいです。ゲート付きアダプタ、活性編集、パラメータ統合といった既存のVLM知識編集手法は、全量ファインチューニングで見られる壊滅的忘却（catastrophic forgetting）に対処します。しかしそれらは依然としてVLMの共有表現空間上で動作するため、概念が絡み合った状態になっており、編集が他の無関係な概念に干渉してしまいます。我々は、この不安定性が、現在の手法が構造的に知識を分離するのではなく、最適化によってアルゴリズム的に編集を制御していることに起因して継続していると仮説を立てます。そこで、動的部分空間概念整合（Dynamic Subspace Concept Alignment: DSCA）を提案します。これは設計上、この制限を、表現空間を一連の直交する意味的部分空間に分解し、編集をこれらの変換された空間のみに対して提案することで緩和します。これらの部分空間は、共同の視覚言語表現に対する漸進的クラスタリングとPCAによって得られます。この過程により概念が構造的に分離され、分離をソフトな学習目的から建築上の性質へと変えることで、正確で非干渉的な編集を可能にします。外科的な編集は、タスクの忠実性、編集の局所性、およびモーダル間の整合を維持するための複数項からなる損失関数によって導かれます。ベースモデルを凍結した状態で、我々の手法は単一編集の成功率98%を達成し、1000回の連続編集後も95%以上を維持します。幻覚（hallucination）を3〜5%低減し、継続的な指示チューニングのベンチマークにおいて最良の後方転移（BWT）スコアを達成します。大規模な実験により、DSCAが、さまざまなデータセットおよびベンチマークにわたる継続的かつ生涯学習型の編集において、最先端の安定性と知識保持能力を示すことが広範に確認されます。