要旨: ビデオカモフラージュ物体検出(VCOD)は現在、困難なベンチマークの不足と、不規則な運動ダイナミクスに対するモデルの限られた頑健性によって制約されています。既存の手法はしばしば、複雑な運動シナリオによって引き起こされる運動誘起の外観不安定性や、時間的特徴の不一致に苦戦します。データのボトルネックに対処するために、我々はピクセルレベルの注釈付き複雑性駆動型VCODベンチマークであるYUV20Kを提示します。91のシーンと47種類の種にまたがる24,295枚の注釈付きフレームで構成されており、大きな変位を伴う運動、カメラ運動、およびその他の4種類のシナリオといった、特に困難な状況を対象としています。手法面では、2つの主要モジュールを備えた新しいフレームワークを提案します:Motion Feature Stabilization(MFS)とTrajectory-Aware Alignment(TAA)です。MFSモジュールはフレームに依存しないセマンティック基底プリミティブを用いて特徴を安定化し、一方でTAAモジュールは軌跡に導かれた変形可能なサンプリングを活用して、正確な時間的アラインメントを保証します。大規模な実験の結果、我々の手法は既存データセット上で最先端の競合に対して大幅に優れており、また困難なYUV20Kにおいて新しい基準(ベースライン)を確立することが示されました。特に、我々のフレームワークは、複雑な時空間シナリオに直面した際に、ドメインをまたいだ汎化性能と頑健性がより優れていることが分かります。コードとデータセットは https://github.com/K1NSA/YUV20K で公開します
YUV20K:複雑度に駆動されたベンチマークと、動画カモフラージュ対象検出のための軌跡対応アライメントモデル
arXiv cs.CV / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Video Camouflaged Object Detection(VCOD)で課題となっている「複雑な動き」に起因する外観の不安定さと時系列特徴のミスアライメントを扱う新しい研究を提案している。
- 課題のデータボトルネックに対し、24,295フレーム・91シーン・47種のピクセルレベル注釈を含む「YUV20K」という複雑度駆動のベンチマークを構築し、特に大きな変位移動やカメラモーションなど複数の困難シナリオを対象にしている。
- 方法面では、Motion Feature Stabilization(MFS)によるフレーム非依存のSemantic Basis Primitivesでの特徴安定化と、Trajectory-Aware Alignment(TAA)による軌跡ガイド付き変形可能サンプリングでの精密な時間整合を組み合わせた枠組みを提示している。
- 実験結果では、既存データセットでのSOTA超えに加え、YUV20K上で新しいベースラインを確立し、複雑な時空間状況に対する横断ドメインでの汎化性と頑健性の向上も報告している。



