Abstract
コンピュータビジョンのための深層学習モデルは、現実環境にデプロイした際に汎化性能が低下しがちです。特に、よく知られたSim2Realギャップのために合成データで学習した場合にその傾向が顕著です。領域一般化のためのデータ拡張戦略としてスタイル転送が注目されつつある一方で、文献には3つの重要な設計軸——スタイルプールの多様性、テクスチャの複雑さの役割、スタイルソースの選択——に関して、未解決の矛盾が存在します。私たちは、これらの要因それぞれがシーン理解をどのように駆動するのかを切り分けて評価する体系的な実証研究を提示し、先行研究における不整合を解消します。得られた結果は、(i) 少数のスタイルによる反復的な拡張よりも、スタイルプールを拡大する方がより大きな改善をもたらすこと、(ii) プールが十分に大きい場合にはテクスチャの複雑さは有意な効果を持たないこと、(iii) 多様な芸術的スタイルが、領域に整合した代替案よりも優れていること、を示しています。これらの洞察に導かれ、私たちはStyleMixDG(Style-Mixing for Domain Generalization)を導出します。これは、軽量でモデル非依存の拡張レシピであり、建築上の改変や追加の損失を必要としません。GTAV
ightarrow {BDD100k, Cityscapes, Mapillary Vistas} ベンチマークで評価したところ、StyleMixDGは強力なベースラインに対して一貫した改善を示し、実証的に特定された設計原則が実用的な利得へと変換されることを確認しました。コードはGitHubで公開されます。