UW-VOS:水中ビデオ対象セグメンテーションのための大規模データセット

arXiv cs.CV / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 研究は、屋外手法が色の歪み・低コントラスト・カモフラージュで性能劣化する「水中ビデオ対象セグメンテーション(Underwater VOS)」に対し、高品質学習データ不足を解決するため大規模ベンチマークUW-VOSを提案しています。
  • UW-VOSは1,431シーケンス・409カテゴリ・309,295マスク注釈から成り、半自動データエンジンと厳格な人手検証により構築された初の大規模ベンチマークとして位置づけられています。
  • さらに、SAM2を水中ドメインへ効率適応するパラメータ効率型フレームワークSAM-Uを提案し、画像エンコーダに軽量アダプタを挿入することで約2%の学習可能パラメータでSOTA性能を達成しています。
  • 実験では既存手法がUW-VOSで平均13点のJ&F低下を示す一方、SAM-Uがドメインギャップを効果的に埋めることを報告しています。
  • 詳細分析により、小型物体、カモフラージュ、出入り(exit-re-entry)が主要ボトルネックであることが示され、今後の頑健な水中知覚研究の指針が提示されています。

Abstract

水中ビデオ物体セグメンテーション(VOS)は海洋探査に不可欠である一方、屋外環境での手法は色の歪み、低コントラスト、そして広範なカモフラージュのために大きく性能が劣化する。主な障壁は、高品質な学習データの不足である。そこでこのギャップを埋めるため、 extbf{UW-VOS}を提案する。これは、409カテゴリにまたがる1,431本の動画シーケンスと、309,295件のマスク注釈を含む、初の大規模水中VOSベンチマークであり、厳密な人手による検証を伴うセミオートマチックなデータエンジンによって構築した。さらに、SAM2を水中領域へ適応させるパラメータ効率の高い枠組み extbf{SAM-U} を提案する。画像エンコーダに軽量なアダプタを挿入することで、SAM-Uは訓練可能パラメータをわずか extasciitilde2 extbackslash hinspace extbackslash hinspace extasciitilde2 extbackslash hinspace extbackslash hinspace extasciitilde2 extasciitilde2 extasciitilde2 extbackslash hinspace extbackslash hinspace(約2%)のみに抑えつつ、最先端の性能を達成する。大規模な実験の結果、既存手法はいずれもUW-VOS上で平均13ポイントの mathcal{J}&mathcal{F} の低下が生じるのに対し、SAM-Uはこのドメインギャップを効果的に埋めることが分かった。さらに、属性ベースの詳細な分析により、小さな対象、カモフラージュ、そして出入り(exit-re-entry)が重要なボトルネックであることを特定し、頑健な水中知覚に向けた今後の研究のためのロードマップを示す。

UW-VOS:水中ビデオ対象セグメンテーションのための大規模データセット | AI Navigate