Abstract
水中ビデオ物体セグメンテーション(VOS)は海洋探査に不可欠である一方、屋外環境での手法は色の歪み、低コントラスト、そして広範なカモフラージュのために大きく性能が劣化する。主な障壁は、高品質な学習データの不足である。そこでこのギャップを埋めるため、 extbf{UW-VOS}を提案する。これは、409カテゴリにまたがる1,431本の動画シーケンスと、309,295件のマスク注釈を含む、初の大規模水中VOSベンチマークであり、厳密な人手による検証を伴うセミオートマチックなデータエンジンによって構築した。さらに、SAM2を水中領域へ適応させるパラメータ効率の高い枠組み extbf{SAM-U} を提案する。画像エンコーダに軽量なアダプタを挿入することで、SAM-Uは訓練可能パラメータをわずか extasciitilde2 extbackslash hinspace extbackslash hinspace extasciitilde2 extbackslash hinspace extbackslash hinspace extasciitilde2 extasciitilde2 extasciitilde2 extbackslash hinspace extbackslash hinspace(約2%)のみに抑えつつ、最先端の性能を達成する。大規模な実験の結果、既存手法はいずれもUW-VOS上で平均13ポイントの mathcal{J}&mathcal{F} の低下が生じるのに対し、SAM-Uはこのドメインギャップを効果的に埋めることが分かった。さらに、属性ベースの詳細な分析により、小さな対象、カモフラージュ、そして出入り(exit-re-entry)が重要なボトルネックであることを特定し、頑健な水中知覚に向けた今後の研究のためのロードマップを示す。