UW-VOS: A Large-Scale Dataset for Underwater Video Object Segmentation

arXiv cs.CV / 3/26/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 研究は、屋外手法が色の歪み・低コントラスト・カモフラージュで性能劣化する「水中ビデオ対象セグメンテーション(Underwater VOS)」に対し、高品質学習データ不足を解決するため大規模ベンチマークUW-VOSを提案しています。
  • UW-VOSは1,431シーケンス・409カテゴリ・309,295マスク注釈から成り、半自動データエンジンと厳格な人手検証により構築された初の大規模ベンチマークとして位置づけられています。
  • さらに、SAM2を水中ドメインへ効率適応するパラメータ効率型フレームワークSAM-Uを提案し、画像エンコーダに軽量アダプタを挿入することで約2%の学習可能パラメータでSOTA性能を達成しています。
  • 実験では既存手法がUW-VOSで平均13点のJ&F低下を示す一方、SAM-Uがドメインギャップを効果的に埋めることを報告しています。
  • 詳細分析により、小型物体、カモフラージュ、出入り(exit-re-entry)が主要ボトルネックであることが示され、今後の頑健な水中知覚研究の指針が提示されています。

Abstract

Underwater Video Object Segmentation (VOS) is essential for marine exploration, yet open-air methods suffer significant degradation due to color distortion, low contrast, and prevalent camouflage. A primary hurdle is the lack of high-quality training data. To bridge this gap, we introduce \textbf{UW-VOS}, the first large-scale underwater VOS benchmark comprising 1,431 video sequences across 409 categories with 309,295 mask annotations, constructed via a semi-automatic data engine with rigorous human verification. We further propose \textbf{SAM-U}, a parameter-efficient framework that adapts SAM2 to the underwater domain. By inserting lightweight adapters into the image encoder, SAM-U achieves state-of-the-art performance with only \sim2\% trainable parameters. Extensive experiments reveal that existing methods experience an average 13-point \mathcal{J}\&\mathcal{F} drop on UW-VOS, while SAM-U effectively bridges this domain gap. Detailed attribute-based analysis further identifies small targets, camouflage, and exit-re-entry as critical bottlenecks, providing a roadmap for future research in robust underwater perception.