要旨:ピクセルレベルのセマンティックセグメンテーションタスクのデータセットを収集・注釈付けするには、多くの労力を要します。データ拡張は、追加の実世界データ収集を行うことなく、モデルの一般化を高める実用的な解決策を提供します。従来の拡張手法である平移、スケーリング、色変換は、幾何学的変化を生み出しますが、新しい構造を生成することはできません。生成モデルはデータセットのセマンティック情報を拡張するために用いられてきましたが、特にピクセルレベルのタスクにおいて、元の画像と生成画像との一貫性を保つことはしばしば困難です。本研究では、制御可能な拡散モデルを組み込んだ新しい合成データ拡張パイプラインを提案します。私たちのアプローチは、多様性と信頼性のあるデータのバランスをとることで、合成データと実データのギャップを効果的に埋めます。クラスを意識したプロンプトと視覚的事前ブレンディングを活用して画像品質をさらに向上させ、セグメンテーションラベルとの正確な整合性を確保します。PASCAL VOC や BDD100K などのベンチマークデータセットを評価することにより、データが不足している状況で特に、我々の手法がセマンティックセグメンテーションの性能を著しく向上させ、実世界の応用におけるモデルの頑健性も高めることを示します。私たちのコードは以下のURLで利用可能です: \href{https://github.com/chequanghuy/Enhanced-Generative-Data-Augmentation-for-Semantic-Segmentation-via-Stronger-Guidance}{https://github.com/chequanghuy/Enhanced-Generative-Data-Augmentation-for-Semantic-Segmentation-via-Stronger-Guidance}.}
R&D: セマンティックセグメンテーションのための合成データ拡張における信頼性と多様性のバランス
arXiv cs.CV / 2026/3/20
📰 ニュースTools & Practical UsageModels & Research
要点
- 本論文は、制御可能な拡散モデルを用いて多様性と信頼性のバランスを取る、ピクセルレベルのセマンティックセグメンテーションのための合成データ拡張パイプラインを提案する。
- クラスを意識したプロンプト設計と視覚的事前情報のブレンディングを活用し、画像品質を向上させ、セグメンテーションラベルとの厳密な整合を保証する。
- PASCAL VOCおよびBDD100Kの実験では、データ不足の設定で大幅な改善と、実世界のシナリオにおけるモデルの堅牢性の向上が示された。
- 著者らは再現性と普及を促進するため、GitHubにコードを公開している。