ブラックボックスドメイン適応のためのサブネットワーク整流を伴うデュアルティーチャーディスティレーション

arXiv cs.CV / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ソースデータとソースモデルが利用できないブラックボックスのドメイン適応を扱い、ターゲットサンプルを用いてブラックボックスのソースモデルにクエリすることでのみ、移転可能な知識を得ることを研究する。
  • ブラックボックスのソースモデル(特定の知識)と、視覚言語モデル(一般的な意味的事前知識)による予測を組み合わせて、より信頼性の高い擬似ラベルを生成するための手法「Dual-Teacher Distillation with Subnetwork Rectification(DDSR)」を提案する。
  • DDSRは、ノイズを含む擬似ラベルによる教師あり信号から生じうる過学習を抑えるために、サブネットワーク駆動の正則化を導入し、適応中の頑健性を向上させる。
  • 本手法は、ターゲットの擬似ラベルとViLプロンプトの両方を反復的に改良し、その後、クラスごとのプロトタイプを用いた自己学習によってターゲットモデルをさらに最適化する。
  • 複数のベンチマークにわたる実験により、DDSRは、ソースデータやソースモデルへのアクセスを前提とする先行の最先端手法を含め、従来手法に対して一貫した改善をもたらすことが示される。

Abstract

ソースデータもソースモデルもアクセスできないと仮定すると、ブラックボックス領域適応は、移譲可能な情報がブラックボックスのソースモデルの予測に限られ、しかもそれはターゲットのサンプルを用いてのみ問い合わせ可能であるため、非常に実用的である一方、極めて困難な設定である。既存の手法は、疑似ラベルの洗練(pseudo label refinement)によって移譲可能な知識を抽出しようとするか、あるいは外部の視覚言語モデル(ViLs)を活用して行うことを試みているが、しばしばノイズを含む教師信号や、ViLが提供する意味的事前知識(semantic priors)の十分でない活用により、最終的に適応性能が妨げられてしまう。これらの制約を克服するために、我々は、ブラックボックスのソースモデルに埋め込まれた固有の知識と、ViLの持つ一般的な意味情報を共同で活用する、サブネットワークの整流(rectification)を伴うデュアル・ティーチャー蒸留(DDSR)モデルを提案する。DDSRは、それらの相補的な予測を適応的に統合してターゲット領域の信頼できる疑似ラベルを生成し、さらにノイズを含む教師信号によって引き起こされる過学習を軽減するために、サブネットワーク駆動型の正則化戦略を導入する。加えて、洗練されたターゲット予測は、疑似ラベルとViLのプロンプトの両方を反復的に改善し、より正確で意味的に一貫した適応を可能にする。最後に、ターゲットモデルはクラスごとのプロトタイプを用いた自己学習によりさらに最適化される。我々の提案手法は、複数のベンチマークデータセットに対する大規模な実験によって有効性が検証されており、ソースデータやソースモデルを用いる手法を含め、最先端手法に対して一貫した改善を示す。