OAMVOS:2nd Report for 5th PVUW MOSE Track

arXiv cs.CV / 4/28/2026

📰 NewsModels & Research

Key Points

  • SAMベースの高密度トラッカー(短期のマスク伝播)は有効だが、長時間の遮蔽や高速移動、視点変化、紛らわしい対象(ディストラクタ)に弱いという課題がある。
  • 本レポートはバックボーンを変えずにDAM4SAMを拡張し、メモリ制御を改善することで遮蔽と再出現に対する頑健性を高める手法を提案する。
  • 具体的には、信頼性に基づく追跡状態マシン、分岐ベースのリカバリ、DRMの昇格を遅延させる仕組み、ネイティブSAM3メモリ選択の選択的ポリシーを組み合わせる。
  • 自信が低下すると曖昧/リカバリモードに切り替えて候補分岐を保持し、枝が再確認できた後にのみメモリ更新をコミットする設計により、誤更新が後続推定を支配する問題を抑える。
  • 小物体の「消失→再出現」では一時的にネイティブメモリ選択をバイパスして古いアンカーを使えるようにし、さらに初期条件フレームの保持や条件付メモリ予算の適度な増加で長いギャップからの回復を改善する。

Abstract

SAM-based dense trackers provide strong short-term mask propagation but remain fragile under long occlusion, fast motion, viewpoint change, and distractors. The problem is especially severe for small objects, where a few incorrect memory updates can dominate later predictions. This report presents an occlusion- and reappearance-aware extension of DAM4SAM that improves memory control rather than changing the backbone. The method augments the original SAM3 tracker with four ingredients: a reliability-aware tracking state machine, branch-based recovery, delayed DRM promotion, and a selective policy for native SAM3 memory selection. During stable tracking, the model follows the original single-path propagation process. Once confidence drops, the tracker enters an ambiguous or recovery mode, maintains a small set of candidate branches, and commits memory only after a branch is reconfirmed. For small-object disappearance and reappearance, native memory selection is temporarily bypassed so older anchors remain accessible. In addition, the first conditioning frame is explicitly preserved, and the conditioning-memory budget is moderately enlarged to improve long-gap recovery. The resulting design keeps DAM4SAM efficient in easy cases while improving robustness in sequences dominated by occlusion and reappearance.