擬似アニーリングに基づくデータ拡張によって、アンダーウォーター画像データにおける高密度物体検出を改善する確率的フレームワーク

arXiv cs.CV / 2026/4/24

📰 ニュースModels & Research

要点

  • 水中の物体検出は、照明・水の透明度・視点が安定した管理環境と比べて、条件のばらつきが大きく、さらに閉塞(オクルージョン)も頻繁に発生するため性能が大きく低下しがちです。
  • 本研究では、DeepFishのセグメンテーションマスクから境界ボックス注釈を生成して独自の検出データセットを作成し、そのうえでDengらのcopy-paste発想に触発された擬似シミュレーテッド・アニーリング方式の拡張アルゴリズムで現実的な混雑した魚の状況を合成します。
  • この拡張により学習時の空間的な多様性と対象(物体)密度が高まり、複雑な水中シーンへの汎化性能が向上します。
  • 実験では、提案手法がベースラインのYOLOv10を大きく上回り、とりわけフロリダキーズのライブ配信映像から取得した手動注釈の難易度が高いテストセットで顕著な改善が示されます。
  • 総じて、基盤となる検出器アーキテクチャを変えずに、水中の高密度・実環境での検出の頑健性を高めるうえで、データ拡張が有効であることを示しています。

Abstract

物体検出モデルは通常、照明が安定しており、水の透明度や視点が一定であるなどの、制御された環境で撮影された画像では良好な性能を発揮しますが、照明条件のばらつきが大きく、頻繁に遮蔽が発生するという特徴を持つ現実の水中環境では、その性能が大幅に低下します。本研究では、密で制約の少ない水中シーンにおける頑健性を高めるための、新しいデータ拡張フレームワークを提案することで、これらの課題に取り組みます。自然環境における魚の画像を含むDeepFishデータセットを用いて、まず、提供されたセグメンテーションマスクからバウンディングボックスの注釈を生成し、独自の検出データセットを構築します。次に、Deng et al. [1] のコピー&ペースト戦略に触発された、疑似的なシミュレーテッド・アニーリングに基づく拡張アルゴリズムを提案し、現実的な混雑した魚の状況を合成します。この手法は、学習中の空間的多様性と物体密度を向上させ、複雑なシーンへの汎化を改善します。実験結果では、本手法がベースラインのYOLOv10モデルを大きく上回り、特にフロリダ・キーズのライブストリーミング映像から収集した手動アノテーション画像からなる、難しいテストセットで顕著な改善が見られました。これらの結果は、密で現実の水中環境における検出性能を向上させるための、我々の拡張戦略の有効性を示しています。