X2SAM:画像・動画の任意セグメンテーション

arXiv cs.CV / 2026/5/5

📰 ニュースModels & Research

要点

  • X2SAMは、会話による指示と視覚プロンプトの両方を扱いながら、画像のany-segmentationを動画へ拡張する統一型マルチモーダル・セグメンテーションLLMです。
  • LLMにMask Memoryモジュールを組み合わせることで、動画内で時間的に一貫したマスク生成を可能にします。
  • このモデルは、オープンボキャブラリ、指示対象の参照、グラウンディングに基づく会話生成、インタラクティブ、視覚グラウンディング型など、多様なセグメンテーション課題を画像・動画の両方で扱えるよう設計されています。
  • さらに、インタラクティブな視覚プロンプトから動画のオブジェクト・トラックをセグメントできるかを評価するVideo Visual Grounded(V-VGD)ベンチマークを提案しています。
  • 異種の画像・動画データセットに対する共同学習により、動画セグメンテーションで強い性能を示しつつ、画像セグメンテーションの競争力と画像・動画チャット能力を維持すると述べられています。