広告

第5回PVUW MeViS-Textチャレンジの第1位受賞解:強力なMLLMがSAM3と結びつく、リファリング動画対象物セグメンテーション

arXiv cs.CV / 2026/4/2

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 第5回PVUW MeViS-Textチャレンジの受賞解は、モーション中心の言語表現を用いてリファリング動画対象物セグメンテーションに取り組み、見た目(appearance)、時間的挙動(temporal behavior)、対象物同士の相互作用(object interactions)を共同でモデル化することで解決する。
  • マルチモーダルLLMとSAM3を組み合わせた、学習不要(training-free)の完全な3段階パイプラインを提案する。Gemini-3.1 Proがインスタンス単位のグラウンディング対象(grounding targets)を生成し、最も明瞭なフレームを選択し、続いてSAM3-agentがシードマスクを作成、SAM3トラッカーがそれを動画全体に伝播する。
  • 最終的なリファインメント手順では、Qwen3.5-Plusに加えて振る舞いレベルの検証(behavior-level verification)を用い、タスク固有の微調整(task-specific fine-tuning)なしで、曖昧または意味的に一貫しないマスク予測を修正する。
  • 本手法は、PVUW 2026 MeViS-Textのテストセットでファイナルスコア0.909064、J&Fスコア0.7897を達成し、1位相当(first place)を報告しており、コードも公開されている。
  • この取り組みは、SAM3スタイルのセグメンテーション/トラッキングと、強力なマルチモーダルLLMによるプロンプト設計を組み合わせることで、タスクに特化した学習を行わずに最高性能を実現し得ることを示している。

概要: 本レポートでは、第5回PVUW MeViS-Textチャレンジにおける受賞ソリューションを提示します。このトラックは、動きに基づく言語表現に従う参照ビデオ対象セグメンテーションを扱い、モデルは外観、時間的挙動、対象同士の相互作用を同時に理解する必要があります。 この問題に対処するために、強力なマルチモーダル大規模言語モデルとSAM3を組み合わせた、完全にトレーニング不要のパイプラインを構築します。 提案手法は3つの段階から成ります。 第一に、Gemini-3.1 Proが各ターゲットイベントをインスタンスレベルのグラウンディング対象に分解し、ターゲットが最も明確に見えるフレームを選択し、弁別的な記述を生成します。 第二に、SAM3-agentが選択されたフレーム上で精密なシードマスクを作成し、公式のSAM3トラッカーがそのマスクを動画全体へと伝播させます。 第三に、Qwen3.5-Plusと振る舞いレベルの検証を用いるリファインメント段階により、曖昧、または意味的に整合しない予測を修正します。 タスク固有の微調整なしで、本手法はPVUW 2026 MeViS-Textのテストセットで1位を獲得し、最終スコア0.909064およびJ&Fスコア0.7897を達成しました。 コードはhttps://github.com/Moujuruo/MeViSv2_Track_Solution_2026で公開されています。

広告