スタイル変換によるランダム化の評価:ドメイン汎化の強化

arXiv cs.CV / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究はコンピュータビジョンにおけるSim2Real汎化問題に取り組み、スタイル変換ベースのドメイン汎化に関して未解決の矛盾、すなわちスタイルプールの多様性、テクスチャの複雑さ、そしてスタイルソースの選択に焦点を当てる。
  • 実験の結果、少数のスタイルに対して繰り返し拡張するよりも、より大きなスタイルプールを用いる方が性能向上に効果的であることが示される。また、スタイルプールが十分に多様であれば、テクスチャの複雑さはほとんど重要でない。
  • 本論文では、GTAVから現実世界へのベンチマークにおいて、ドメイン整合型(より「ターゲットらしい」)の代替案よりも、多様な芸術的スタイルの方がシーン理解で優れていることが分かる。
  • これらの知見に基づき、著者らはStyleMixDGを提案する。これは軽量でモデル非依存の拡張レシピであり、アーキテクチャ変更や追加の損失関数なしにドメイン汎化を改善する。
  • GTAV → {BDD100k, Cityscapes, Mapillary Vistas} ベンチマークにおいて、StyleMixDGは強力なベースラインに対して一貫した改善をもたらし、コードはGitHubでの公開が予定されている。

Abstract

コンピュータビジョンのための深層学習モデルは、現実環境にデプロイした際に汎化性能が低下しがちです。特に、よく知られたSim2Realギャップのために合成データで学習した場合にその傾向が顕著です。領域一般化のためのデータ拡張戦略としてスタイル転送が注目されつつある一方で、文献には3つの重要な設計軸——スタイルプールの多様性、テクスチャの複雑さの役割、スタイルソースの選択——に関して、未解決の矛盾が存在します。私たちは、これらの要因それぞれがシーン理解をどのように駆動するのかを切り分けて評価する体系的な実証研究を提示し、先行研究における不整合を解消します。得られた結果は、(i) 少数のスタイルによる反復的な拡張よりも、スタイルプールを拡大する方がより大きな改善をもたらすこと、(ii) プールが十分に大きい場合にはテクスチャの複雑さは有意な効果を持たないこと、(iii) 多様な芸術的スタイルが、領域に整合した代替案よりも優れていること、を示しています。これらの洞察に導かれ、私たちはStyleMixDG(Style-Mixing for Domain Generalization)を導出します。これは、軽量でモデル非依存の拡張レシピであり、建築上の改変や追加の損失を必要としません。GTAV ightarrow {BDD100k, Cityscapes, Mapillary Vistas} ベンチマークで評価したところ、StyleMixDGは強力なベースラインに対して一貫した改善を示し、実証的に特定された設計原則が実用的な利得へと変換されることを確認しました。コードはGitHubで公開されます。