MeViS-Textトラック向けの第5回PVUWチャレンジにおけるAgentRVOS（第3手法）

arXiv cs.CV / 2026/4/28

📰 ニュースModels & Research

共有:

要点

本論文は、Sa2VAの最初の高密度なセマンティック仮説生成と、エージェントループによる採択・修正・再精緻化を組み合わせたMeViS-Text向けのRef-VOSパイプラインを提案しています。
システムはまず対象の存在確認を行い、動画内で参照対象が存在しない場合はゼロマスクを出力し、存在する場合は動画全体に対する粗いマスク軌跡をセマンティック・プライアとして生成します。
要求の分解、情報量の高い時間区間の選定、アンカーフレーム探索、Sa2VA出力の精緻化（信頼できるマスクを箱と点へ変換してSAM3で伝播）を行う複数の専門エージェントを用います。
クリティックが候補軌跡を評価し、リフレクション／コラボレーションのコントローラが弱い仮説の修復と複数ブランチの整合を行い、最終マスク品質を高めます。

Dev.to

Dev.to

Dev.to

ITmedia AI+

Dev.to