AI Navigate

動作認識を考慮した参照画像セグメンテーションに向けて

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、モーション中心のクエリに対するRISの性能のギャップを特定し、動作中心のデータ拡張と融合された画像-テキスト埋め込み上でのマルチモーダル放射状対比学習(MRaCL)という2つの革新を提案する。
  • 彼らは、新しいテスト分割と M-Bench と呼ばれるベンチマークを導入し、物体は主に動作によって識別されるように設計され、モーション理解を特に評価する。
  • このアプローチは、複数の RIS モデルにおける動作中心のクエリで大幅な改善をもたらしつつ、外見ベースの記述に対しては競争力のある結果を維持する。
  • データ拡張スキームは、既存のキャプションから動作に関連する語句を抽出し、追加の注釈を必要とせず、より多くの動作表現に触れることを可能にする。
  • 著者は、再現性と普及を促進するため、提供された GitHub リンクでコードを公開している。

要約: Referring Image Segmentation (RIS) は、テキスト記述に基づいて画像から物体を識別することを要求します。私たちは、既存の手法は外観ベースのクエリと比較して、動作関連のクエリで著しく性能が劣ることを観察しています。これに対処するため、元のキャプションから動作中心の語句を抽出する効率的なデータ拡張スキームを初めて導入し、追加の注釈なしでモデルをより多くの動作表現に触れさせます。次に、同じ物体は文脈によって異なる説明がされることがあるため、Multimodal Radial Contrastive Learning (MRaCL) を提案します。これは単一モーダル表現ではなく、融合した画像とテキストの埋め込み上で実行されます。総合的な評価のため、動作中心のクエリに焦点を当てた新しいテスト分割を導入し、M-Bench と呼ばれる新しいベンチマークを導入します。ここでは物体は主に動作によって区別されます。大規模な実験は、私たちの手法が複数のRISモデルにわたって動作中心のクエリの性能を大幅に向上させ、外観ベースの記述に対しても競争力のある結果を維持することを示しています。コードは https://github.com/snuviplab/MRaCL で公開されています。