VLMは本当に忘れられるのか? トレーニング不要の視覚コンセプト消去(unlearning)をベンチマークする

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存のトレーニングベースの「視覚コンセプト消去(visual concept unlearning)」が、評価を混乱させうると主張する。すなわち、消去用の小さなデータセットで微調整を行う時点ですでに、消去を測定する前に汎用的な能力が損なわれてしまうためである。
  • トレーニング不要の視覚コンセプト消去のための新しいベンチマーク「VLM-UnBench」を導入する。複数の消去レベル、複数のデータセット、複数のコンセプト軸にまたがり、単なる指示追従ではなく「本当の忘却」を区別できるように、プローブと評価条件を設計している。
  • 多数のVLM設定および評価セットアップにおいて、現実的な消去プロンプトでは忘却精度が、指示なしベースラインに非常に近い。一方で、意味のある改善が見られるのは、ターゲット概念を実質的に露出させる特別な「オラクル」条件下に限られる。
  • 対象(object)および場面(scene)の概念は、特に抑制に対して頑健であることが分かる。さらに、指示調整されたモデルでも、明示的に忘れるよう指示されていても、関連する視覚知識をなお保持しうる。
  • 全体として、結果は、プロンプトレベルでの抑制(指示遵守)と、真の視覚コンセプトの消去(基盤となる表現の除去)との間にギャップがあることを示している。