要旨: 本技術レポートでは、複雑な半教師ありビデオ物体セグメンテーションを対象とするPVUW 2026 ChallengeのMOSEv2トラックを探究します。SAM~3を土台として、対象の消失と再出現、深刻な変形、および強い同一カテゴリの紛らわしい対象(distractor)下での頑健性を高めるための自動再プロンプト付与フレームワークを開発しました。提案手法はまず、SAM~3検出器を後続フレームに適用して同一カテゴリの物体候補を特定し、次に変換(トランスフォーメーション)を意識した対象特徴プールを用いたDINOv3ベースの物体レベル対応付けにより、信頼できる対象アンカーを取得します。これらのアンカーを、最初のフレームのマスクとともにSAM~3トラッカーへ再注入することで、初期プロンプトのみに依存するのではなく、複数アンカーによる伝播を可能にします。この単純な工夫は、MOSEv2の主要な複数の課題に直接有益です。本解法はテストセットでJ&F 51.17%を達成し、MOSEv2トラックで3位にランクインしました。
オブジェクト取得によるSAM 3の再プロンプト:PVUW MOSEトラック(第5回のうち第3回)
arXiv cs.CV / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本レポートは、PVUW 2026 ChallengeのMOSEv2トラックに向けた手法を提示し、SAM 3を用いた複雑な半教師ありの動画オブジェクトセグメンテーションに焦点を当てている