要旨: 高精度二値画像セグメンテーション(DIS)は、高解像度画像から微細な対象物を抽出するタスクである。既存手法は効率と精度をトレードオフする。非拡散手法は高速だが、弱い意味論と不安定な空間事前知識(空間プライヤ)により、誤検出が生じる。一方、拡散ベースの手法は強力な生成的プライヤにより高い精度を実現するが、計算コストが高い。深度マップでは、完全な対象物は低分散の領域として現れ、滑らかな内部と鋭い境界を持つのに対し、背景は、異なる奥行きで切断された面によって引き起こされる、混沌とした高分散パターンを示す。これを深度整合性プライヤ(depth integrity-prior)と呼ぶ。本研究はこれに着想を得たものであり、またDISでは現在深度マップが欠けていることに注目し、単眼深度推定モデルから擬似深度情報を活用して、本質的な意味理解を獲得する。これにより、対象物と背景の間の空間的差異を迅速に明らかにする。 このプライヤを活用するために、RGBと擬似深度の特徴を融合して、深度に配慮した構造認識を行うPrior-guided Depth Fusion Network(PDFNet)を提案する。さらに、セグメンテーションにおいて深度の整合性を強制する新しい深度整合性プライヤ損失と、境界をより鮮明にするための適応的パッチ選択を備えた微細化(fine-grained)強調モジュールを導入する。特筆すべき点として、DAM-v2を用いたPDFNetは、拡散ベース手法の半分未満のパラメータ数で、DIS-VDおよびDIS-TEにおいてそれぞれSOTA(Fmax 0.915および0.915)を達成する。コードは https://tennine2077.github.io/PDFNet.github.io/ で公開している。
深度インテグリティ・プライアときめ細かなパッチ戦略による高精度二値画像セグメンテーション
arXiv cs.CV / 2026/4/29
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、高精度二値画像セグメンテーション(DIS)において、非拡散系が高速でも意味論が弱く空間プライアが不安定になりがちな一方、拡散系は高精度だが計算コストが大きいというトレードオフを扱っている。
- 深度マップでは、完全な物体が低分散で内部が滑らか、境界が鋭い領域として現れ、背景は深度の異なる切れた面により高分散で混沌としたパターンになることから、「depth integrity-prior(深度インテグリティ・プライア)」を提案している。
- DISでは深度マップが欠けがちであるため、単眼深度推定モデルから疑似深度を作り、物体と背景の間の意味的・深度に基づく空間差を素早く捉える。
- 提案手法の Prior-guided Depth Fusion Network(PDFNet)はRGBと疑似深度の特徴を統合し、深度整合性をセグメンテーションに強制する深度インテグリティ・プライア損失と、境界を鋭くするための適応的パッチ選択を伴う細粒度強調モジュールを導入する。
- 実験では、拡散ベース手法のパラメータ数の半分未満で、DIS-VDとDIS-TEのFmaxがそれぞれ0.915となるSOTA性能を報告し、コードも公開されている。



