広告

SaSaSaSa2VA: 第5回PVUW MeViS-Textトラックでの2位

arXiv cs.CV / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文SaSaSaSa2VAは、参照動画物体セグメンテーション(RVOS)を対象とし、既存手法が静的なテキスト手がかりに過度に依存しているため、動きに焦点を当てた表現へと設定を拡張するべきだと主張している。
  • Sa2VAを基に、入力フレーム数を増やし[SEG]トークンを用いることで拡張し、さらに、セグメンテーションの前または最中に対象が存在するかどうかを検証する必要性に触発された、シンプルな「対象の存在を意識した検証」機構を追加している。
  • 著者らは、第5回PVUWチャレンジ(MeViS-Textトラック)で最終スコア89.19を報告しており、本手法は2位を獲得した。
  • 定量結果とアブレーション研究から、「存在を意識した検証」戦略が、特に動き中心の参照タスクにおいて強い性能を引き出すのに十分であることが示されている。
  • 本研究は、MeViSベンチマークの改善(参照&推論する動き表現に加え、対象なしクエリ)を、テキストのみでのグラウンディングを超えた頑健性を評価するための重要なテストベッドとして位置づけている。

広告