ドメインシフト下における汎用カテゴリ発見：視覚から視覚言語モデルへ

arXiv cs.CV / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

汎用カテゴリ発見（GCD）をドメインシフトの下で検討し、従来手法が「単一ドメイン」を前提にしがちである点を現実のデータのズレに対応して補う。
本研究では、自己教師ありの視覚モデルから視覚言語モデルまでの基盤モデルを適応させる3つの枠組み（HiLo、HLPrompt、VLPrompt）を提案する。
HiLoは、多層の特徴抽出と相互情報量最小化により「ドメイン」と「意味」の特徴を分離し、PatchMix拡張やカリキュラムサンプリングといった学習戦略を組み合わせる。
HLPromptはHiLoを拡張し、意味に応じた空間プロンプトチューニングで背景やドメイン由来のノイズの影響を抑える。
VLPromptは、因数分解されたテキストプロンプトとクロスモーダル一貫性正則化により視覚言語モデルを活用し、合成破損と実世界の多ドメインシフトの双方で強いベースラインに対して一貫した改善を示す。

概要: 一般化カテゴリ発見（GCD）は、既知クラスおよび未知クラスの両方からのラベルなしインスタンスを、既知クラスのラベル付きデータからの知識移転によって分類することを目的とします。既存手法では、すべてのデータが単一ドメインから来ていると仮定しますが、現実のラベルなしデータはしばしば意味的シフトに加えてドメインシフトを示します。本研究ではドメインシフト下でのGCDを扱い、自己教師あり視覚モデルから視覚言語モデルに至るまでの基盤モデルを適応させる3つの枠組みを提案します。 (i) HiLoは、多段階の特徴抽出と相互情報量の最小化により、ドメイン特徴と意味特徴を分離し、PatchMixの拡張とカリキュラムサンプリングを組み合わせます。 (ii) HLPromptは、背景およびドメインのノイズを抑制するために、意味に応じた空間プロンプトチューニングを導入してHiLoを拡張します。 (iii) VLPromptは、因数分解されたテキストプロンプトと、モーダル間整合性の正則化を通じて、視覚言語モデルを活用します。これら3つの手法は、異なる基盤バックボーン上で動作しつつも共通の設計原理を共有しており、さまざまな導入シナリオに適しています。合成劣化と現実のマルチドメインシフトに関する大規模な実験により、強力なベースラインに対して一貫した改善が示されています。プロジェクトページ: https://visual-ai.github.io/hilo/