教師なしドメイン適応のためのデュアル・ファウンデーションモデル

arXiv cs.CV / 2026/5/6

📰 ニュースModels & Research

要点

  • この論文は、ラベル付きの合成データで学習し、ラベルなしの実画像へ適応する際に生じるドメインギャップという課題に取り組みます。
  • 従来手法の弱点として、(1) 高信頼な疑似ラベルへの依存によりターゲット領域の学習範囲が限定される点、(2) 学習のアンカーとなるプロトタイプがソース学習モデル由来で偏りや不安定さを持つ点を挙げています。
  • 提案するデュアル・ファウンデーションの枠組みでは、SAMに超画素(スーパーピクセル)誘導のプロンプトを組み合わせ、高信頼予測だけに頼らずより広いターゲット画素から学習できるようにします。
  • さらにDINOv3を取り入れ、頑健な表現学習により安定したドメイン不変なクラス・プロトタイプを構築して、適応中の整合性を高めます。
  • 実験ではGTA→CityscapesおよびSYNTHIA→Cityscapesで、それぞれ強力なUDAベースラインに対してmIoUが+1.3%、+1.4%改善し、安定した効果が示されています。

Abstract

セマンティックセグメンテーションは、自動運転やきめ細かな認識タスクに不可欠なピクセルレベルのシーン理解を提供します。しかし、セグメンテーションモデルの学習には、実世界のデータセットに対する高コストで手間のかかるアノテーションが必要です。教師なしドメイン適応(UDA)は、ラベル付きの合成データでモデルを学習し、ラベルなしの実画像に適応させることでこの問題に対処します。概念的には単純ですが、合成データと実データの間にあるドメインギャップ、すなわち視覚的な見え方やシーン構造の違いのため、適応は困難です。従来のアプローチは、ピクセルレベルの混合や特徴レベルの対照学習によってこのギャップを埋めようとしてきました。しかし、これらの手法には大きく2つの制限があります:(1) 高信頼度の擬似ラベルへの依存により、学習がターゲットドメインの一部に限定されること、そして(2) プロトタイプベースの対照学習手法では、クラスのプロトタイプをソースで学習したモデルから初期化するため、適応中にバイアスがかかった不安定なアンカーが生成されることです。これらの課題に対処するため、2つの補完的な基盤モデルを活用するデュアル基盤UDAフレームワークを提案します。まず、高信頼度の予測を超えてより広い範囲のターゲットピクセルから学習できるように、超画素ガイド付きプロンピングを用いてセグメント・エニシング・モデル(SAM)を採用します。次に、表現学習の頑健性により安定したドメイン不変のクラスプロトタイプを構築するために、DINOv3を組み込みます。本手法は、GTAからCityscapesおよびSYNTHIAからCityscapesにおいて、それぞれ強力なUDAベースラインに対してmIoUを一貫して+1.3%および+1.4%改善します。