マルチモーダル隠蔽物体検出のためのモダリティ非依存型プロンプト学習

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、モダリティ固有のアーキテクチャや融合設計の限界に対処するため、カモフラージュ物体検出（COD）におけるモダリティ非依存型のマルチモーダル・プロンプト学習を提案する。
コンテンツ領域とプロンプト（知識）領域の相互作用に基づいて、Segment Anything Model（SAM）のための統一プロンプトを生成し、任意の補助モダリティに対してパラメータ効率の高い適応を可能にする枠組みを提案する。
軽量なMask Refine Moduleを追加し、微細なプロンプト手掛かりを注入することで粗いセグメンテーションを改善し、カモフラージュ物体の境界をよりシャープで正確にする。
RGB-Depth、RGB-Thermal、RGB-Polarizationのベンチマークにわたる実験により、性能の向上とモダリティ間一般化の強化が示される。
本研究は、追加モダリティを各モダリティ種ごとに基盤モデルを作り直すことなく取り込むための、SAMプロンプトに基づく適応をスケーラブルな手段として位置付ける。

要旨: 隠蔽物体検出（Camouflaged Object Detection: COD）は、複雑な背景に溶け込む物体を、見分けるのが困難なほど自然にセグメント化することを目的とする。さらに、相補的な情報によって頑健性を高めるために、追加の視覚モダリティを活用することへの関心が高まっている。しかし、既存の多くの手法は概してモダリティ固有のアーキテクチャや、カスタマイズされた融合戦略に依存しており、スケーラビリティやモダリティ間の一般化を制限している。これに対処するために、本研究では、セグメント・エニシング・モデル（Segment Anything Model: SAM）に対して、モダリティに依存しないマルチモーダル・プロンプトを生成する新しい枠組みを提案する。これにより、任意の補助モダリティへのパラメータ効率の高い適応が可能となり、CODタスクにおける全体的な性能が大幅に向上する。具体的には、データ駆動のコンテンツ・ドメインと、知識駆動のプロンプト・ドメインの間の相互作用を通じてマルチモーダル学習をモデル化し、タスクに関連する手がかりをSAMのデコーディング用の統一プロンプトへと蒸留する。さらに、軽量なマスク改良モジュール（Mask Refine Module）を導入し、微細なプロンプトの手がかりを組み込むことで粗い予測を較正し、隠蔽された物体の境界をより正確にする。RGB-Depth、RGB-Thermal、RGB-Polarizationのベンチマークに関する大規模な実験により、本モダリティ非依存の枠組みの有効性と一般化性能が検証される。