PVUWチャレンジ第5回報告：ピクセルレベル理解におけるより多様なモダリティに向けて

arXiv cs.CV / 2026/4/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本レポートは、CVPR 2026で開催された2026年の「Pixel-level Video Understanding in the Wild（PVUW）」チャレンジについて、目的・データセット・主要な手法をまとめています。
PVUW 2026は、非常に制約の少ない現実環境の条件下で最先端モデルを評価し、頑健なピクセルレベルの動画シーン理解をベンチマークします。
チャレンジは3つの専門トラックで構成されます。MOSEは密集した複雑環境かつ重度の遮蔽下での物体追跡、MeViS-Textは動きに焦点を当てた言語表現を用いたローカライズ、そして新設のMeViS-Audioは音響に基づく物体セグメンテーションです。
未公開に近い難易度の高いデータセットを新たに導入し、参加者の最上位マルチモーダル解法を分析することで、技術の進展と今後の研究の方向性を示します。
テキストや音声などの多様な入力をビデオと組み合わせることへの重点は、ピクセルレベル理解において多様なモダリティを取り込む流れを表しています。

要旨: 本レポートは、CVPR 2026で開催される2026年 Pixel-level Video Understanding in the Wild（PVUW）チャレンジの目的、データセット、および最高性能の手法を要約するものであり、非常に制約の少ない条件下で最先端モデルを評価します。包括的な評価を行うために、2026年版では3つの専門トラックを用意しています。MOSEトラックは、密集していて視界が遮られやすい状況の中で対象を追跡するためのものです。MeViS-Textトラックは、運動に焦点を当てた言語表現によってターゲットを位置特定するためのものです。そして新たに創設されたMeViS-Audioトラックは、音響に駆動された物体セグメンテーションを先駆けて扱います。これまで未公開だった難易度の高いデータを導入し、参加者によって提出された最先端のマルチモーダル解を分析することで、本レポートはコミュニティの最新の技術的進展を示し、頑健な動画シーン理解に向けた有望な今後の方向性を描き出します。