概要: パノラマ意味セグメンテーションは、自動運転やバーチャルリアリティのような重要な応用における360{\deg}シーンの包括的な理解にとって極めて重要です。しかし、この分野の進展は主に2つの課題によって制約されています。すなわち、パノラマ投影に固有の深刻な幾何学的歪みと、密な注釈のコストが非常に高いことです。ラベル豊富なピンホールカメラのデータセットからの教師なしドメイン適応(UDA)は実行可能な代替案を提供しますが、多くの実世界のタスクでは、プライバシーや専有上の理由によりソースデータが利用できない、より厳しいソースレス(SFUDA)制約が課されます。この制約は、ドメインシフトという中核的問題を大幅に増幅させ、特にマイノリティクラスにおいて、信頼性の低い疑似ラベルと著しい性能低下を招きます。これらの制限を克服するため、我々はDAPASSフレームワークを提案します。DAPASSは、ソースデータなしで堅牢に知識を転移するための、相乗効果を持つ2つのモジュールを導入します。第一に、Panoramic Confidence-Guided Denoising(PCGD)モジュールは、摂動の一貫性を強制し、近傍レベルの信頼度を組み込むことでノイズを除去することにより、高忠実度かつクラスバランスされた疑似ラベルを生成します。第二に、Contextual Resolution Adversarial Module(CRAM)は、高解像度のクロップから得られるきめ細かな詳細と、低解像度の文脈から得られるグローバルな意味を、敵対的に整合させることで、スケールのばらつきと歪みを明示的に扱います。DAPASSは、屋外(Cityscapes-to-DensePASS)および屋内(Stanford2D3D)のベンチマークで先端の性能を達成し、それぞれ55.04%(+2.05%)および70.38%(+1.54%)のmIoUを実現します。
Denoise and Align:ソースフリーUDAによるロバストなパノラマ意味セグメンテーションに向けて
arXiv cs.CV / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ラベル付きソースデータへのアクセスがプライバシー/所有権上の制約により不可能であるという動機から、ソースフリー無教師ドメイン適応(SFUDA)におけるロバストなパノラマ意味セグメンテーションを扱う。
- ソースフリー設定によって増幅される2つの主要な困難を特定する:ドメインシフトにより信頼できない擬似ラベルが生じること、そして少数クラスで性能が崩壊すること。
- DAPASSは、擾乱の整合性と近傍レベルの信頼度フィルタリングを通じて、クラスバランスが取れ高忠実度な擬似ラベルを生成するためのPCGD(Panoramic Confidence-Guided Denoising)を提案する。
- また、CRAM(Contextual Resolution Adversarial Module)を提案し、パノラマの幾何学的歪みとスケールのばらつきに対処する。高解像度のクロップから得た微細情報を、低解像度の文脈からのグローバルな意味と、敵対的に整合させることで扱う。
- 実験では、Cityscapes-to-DensePASS(55.04% mIoU)およびStanford2D3D(70.38% mIoU)において先行手法を一貫して上回る最先端の結果を報告している。
広告
