AI Navigate

クロスアテンション機構の再検討: ドメイン適応学習のための有益なノイズの活用

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、教師なしドメイン適応におけるクロスアテンションを正則化するための有益なノイズを導入し、スタイルの分散に惑わされず内容に焦点を当てるようモデルを促す。
  • ドメイン共有の内容とドメイン固有のスタイルを分離する Domain-Adaptive Transformer(DAT)を提案する。
  • また、複数の解像度にわたる特徴を整合させつつ意味論的一貫性を保つ Cross-Scale Matching(CSM)モジュールを導入する。
  • DACSM は VisDA-2017、Office-Home、DomainNet のすべてで最先端の性能を達成し、VisDA-2017 で CDTrans を +2.3% 上回る改善と、'truck' クラスで +5.9% のゲインを実現した。
  • 本研究は、ドメイン翻訳、有益ノイズを強化した注意、スケール対応の整合を組み合わせることで、クロスドメイン学習において頑健で内容に一貫した表現をもたらすことができることを示している。

要旨:教師なしドメイン適応(UDA)は、ラベル付きソースドメインからラベルなしターゲットドメインへ知識を移転することを目指しますが、しばしば性能を低下させる深刻なドメイン間およびスケールギャップに悩まされます。既存のクロスアテンションベースのトランスフォーマーはドメイン間で特徴を整列させることができますが、大きな外観とスケールの変動の下で内容の意味を保持するのに苦労します。これらの課題に明示的に対処するため、有益なノイズの概念を導入します。これは制御された摂動を注入してクロスアテンションを正則化し、モデルがスタイルの紛れを無視し、内容に焦点を当てるよう促します。我々はDomain-Adaptive Cross-Scale Matching(DACSM)フレームワークを提案します。これは、ドメイン共有の内容をドメイン固有のスタイルから分離するためのDomain-Adaptive Transformer(DAT)と、複数解像度にわたって特徴を適応的に整列させるCross-Scale Matching(CSM)モジュールから構成されます。DAT はクロスアテンションに有益なノイズを組み込み、強化されたロバスト性を伴う段階的なドメイン翻訳を可能にし、内容が一貫しスタイルが不変な表現を生み出します。一方、CSM はスケール変化下での意味的一貫性を保証します。VisDA-2017、Office-Home、DomainNet における広範な実験は、DACSM が最先端の性能を達成することを示しており、VisDA-2017 において CDTrans より最大で +2.3% の改善を実現します。特に、DACSM は VisDA の難しい「truck」クラスで +5.9% の改善を達成しており、スケールの不一致を扱う際の有益なノイズの有効性を示しています。これらの結果は、ドメイン翻訳、有益なノイズ強化アテンション、スケール認識を取り入れた整列を組み合わせることで、堅牢なクロスドメイン表現学習の有効性を強調しています。