SOUPLE：学習可能なプロンプトコンテキストによる音響・映像のローカリゼーションとセグメンテーションの強化

arXiv cs.CV / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、CLIPスタイルの音響・映像モデルをローカリゼーションやセグメンテーションに適用することは難しいと主張している。これは、単純なトークン置換や固定プロンプトでは、音響埋め込みと意味コンテキストを適切に結び付けられないためである。
音に応じたプロンプト学習（SOUPLE：Sound-aware Prompt Learning）を提案し、視覚特徴に条件付けられたコンテキストトークンを学習することで、音響の意味とマスクデコーダの間をより良く橋渡しする。
SOUPLEは静的なプロンプトを、学習可能なプロンプトコンテキストトークンに置き換え、音響埋め込みトークンと視覚コンテキストとの対応関係をより強固に確立することを目指す。
VGGSound、SoundNet、AVSBenchでの実験により、先行するプロンプト／トークン手法と比べて音響・映像のローカリゼーションおよびセグメンテーション性能が向上することが示される。

要旨: 大規模な事前学習済み画像-テキストモデルは強固なマルチモーダル表現を示す一方で、Contrastive Language-Image Pre-training（CLIP）モデルを音声-視覚のローカライズに適用することは依然として困難です。分類トークン（[CLS]）を音声埋め込みトークン（[V_A]）に置き換えると、意味的手がかりの捕捉がうまくできません。また、プロンプト「a photo of a [V_A]」では、音声埋め込みとコンテキストトークンとの間に有意義な関係を確立できません。これらの問題に対処するために、固定されたプロンプトを学習可能なコンテキストトークンに置き換えるSound-aware Prompt Learning（SOUPLE）を提案します。これらのトークンは視覚的特徴を取り込み、マスクデコーダのための条件付きコンテキストを生成することで、音声入力と視覚入力の間における意味的対応を効果的につなぎます。VGGSound、SoundNet、およびAVSBenchでの実験により、SOUPLEがローカライズおよびセグメンテーション性能を向上させることが示されています。

竹中工務店がデータセンターの設計支援ツール開発、3Dモデルを瞬時に作成

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

三菱電機も出資、ユニコーン予備軍の燈フィジカルAI「26年内に」

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

認識が不可欠、AIに読み取らせてはいけない情報

日経XTECH

SOUPLE：学習可能なプロンプトコンテキストによる音響・映像のローカリゼーションとセグメンテーションの強化

要点

関連記事

竹中工務店がデータセンターの設計支援ツール開発、3Dモデルを瞬時に作成

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

三菱電機も出資、ユニコーン予備軍の燈フィジカルAI「26年内に」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

認識が不可欠、AIに読み取らせてはいけない情報

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

竹中工務店がデータセンターの設計支援ツール開発、3Dモデルを瞬時に作成

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

三菱電機も出資、ユニコーン予備軍の燈 フィジカルAI「26年内に」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

認識が不可欠、AIに読み取らせてはいけない情報

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資、ユニコーン予備軍の燈フィジカルAI「26年内に」