RGB-D カモフラージュ対象検出のためのモダリティ固有階層強化

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

RGB-D カモフラージュ対象検出は、対象が背景に非常に近く見えるため難しく、既存手法では RGB と深度の特徴を十分なモダリティ固有の強化なしに単純に融合することが多い。
本論文では、微細な高周波のテクスチャ手がかりを強化する Texture 階層強化モジュール（THEM）と、学習可能な勾配抽出により幾何学的構造を強める Geometry 階層強化モジュール（GHEM）を追加した MHENet を提案する。
MHENet は、強化されたテクスチャ表現と幾何表現を、空間的に変化する重みで融合する Adaptive Dynamic Fusion Module（ADFM）を用いることで、モダリティ間融合の品質を向上させる。
4 つのベンチマークでの実験により、MHENet は定性的・定量的の両面で 16 の最先端手法を上回り、コードは GitHub で公開されている。

要旨: 隠蔽物体検出（COD）は、目標と背景の類似度が高いために困難です。最近の手法では、RGB-Dのテクスチャと幾何学的手がかりを補完的に用いることでこの問題に対処しています。しかし、RGB-D CODの手法は、モダリティ固有の手がかりをまだ十分に活用しておらず、それが融合品質の制限につながっています。私たちは、その理由は、RGBと深度の特徴をバックボーン抽出の直後に直接融合してしまい、モダリティ固有の強化が行われないためだと考えています。この制限に対処するため、RGB-D CODフレームワークであるMHENetを提案します。MHENetは、RGBと深度の特徴に対して、モダリティ固有の階層的強化と、適応的な融合を実行します。具体的には、微細なテクスチャの変化を増幅するために、高周波情報を抽出するTexture階層的強化モジュール（THEM）を導入し、学習可能な勾配抽出によって幾何学的構造を強化しつつ、スケール間の意味的一貫性を維持するために、Geometry階層的強化モジュール（GHEM）を導入します。最後に、Adaptive Dynamic Fusion Module（ADFM）が、強化されたテクスチャ特徴と幾何特徴を、空間的に変化する重み付きで適応的に融合します。4つのベンチマークでの実験により、MHENetが定性的・定量的に16の最先端手法を上回ることを示します。コードは https://github.com/afdsgh/MHENet で利用可能です。