SOUPLE:学習可能なプロンプトコンテキストによる音響・映像のローカリゼーションとセグメンテーションの強化

arXiv cs.CV / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、CLIPスタイルの音響・映像モデルをローカリゼーションやセグメンテーションに適用することは難しいと主張している。これは、単純なトークン置換や固定プロンプトでは、音響埋め込みと意味コンテキストを適切に結び付けられないためである。
  • 音に応じたプロンプト学習(SOUPLE:Sound-aware Prompt Learning)を提案し、視覚特徴に条件付けられたコンテキストトークンを学習することで、音響の意味とマスクデコーダの間をより良く橋渡しする。
  • SOUPLEは静的なプロンプトを、学習可能なプロンプトコンテキストトークンに置き換え、音響埋め込みトークンと視覚コンテキストとの対応関係をより強固に確立することを目指す。
  • VGGSound、SoundNet、AVSBenchでの実験により、先行するプロンプト/トークン手法と比べて音響・映像のローカリゼーションおよびセグメンテーション性能が向上することが示される。

要旨: 大規模な事前学習済み画像-テキストモデルは強固なマルチモーダル表現を示す一方で、Contrastive Language-Image Pre-training(CLIP)モデルを音声-視覚のローカライズに適用することは依然として困難です。分類トークン([CLS])を音声埋め込みトークン([V_A])に置き換えると、意味的手がかりの捕捉がうまくできません。また、プロンプト「a photo of a [V_A]」では、音声埋め込みとコンテキストトークンとの間に有意義な関係を確立できません。これらの問題に対処するために、固定されたプロンプトを学習可能なコンテキストトークンに置き換えるSound-aware Prompt Learning(SOUPLE)を提案します。これらのトークンは視覚的特徴を取り込み、マスクデコーダのための条件付きコンテキストを生成することで、音声入力と視覚入力の間における意味的対応を効果的につなぎます。VGGSound、SoundNet、およびAVSBenchでの実験により、SOUPLEがローカライズおよびセグメンテーション性能を向上させることが示されています。