第5回PVUWのMeViS-AudioトラックにおけるVIRST-Audioの3位

arXiv cs.CV / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、音声ベースの参照ビデオ物体セグメンテーション（ARVOS）向けのフレームワークであるVIRST-Audioを提案し、音声クエリをピクセルレベルかつ時間的に一貫した物体マスクへと位置付けます。
音声を直接学習するのではなく、ASRモジュールによって音声をテキストに変換し、視覚言語アーキテクチャを用いた事前学習済みRVOSモデルを用いてテキストにより教師付きセグメンテーションを行います。
頑健性を高めるために、VIRST-Audioは存在認識に基づくゲーティング機構を追加します。これは、対象が動画内に存在するかを検出し、不在の場合はセグメンテーションを抑制することで、幻覚的なマスクの生成を抑えます。
本手法は第5回PVUWチャレンジのMeViS-Audioトラックで評価され、VIRST-Audioは3位を獲得しました。これは、音声駆動型の参照シナリオに対する強い汎化性能を示しています。

note

note

note

note

note