X2SAM：画像・動画の任意セグメンテーション

arXiv cs.CV / 2026/5/5

📰 ニュースModels & Research

共有:

要点

X2SAMは、会話による指示と視覚プロンプトの両方を扱いながら、画像のany-segmentationを動画へ拡張する統一型マルチモーダル・セグメンテーションLLMです。
LLMにMask Memoryモジュールを組み合わせることで、動画内で時間的に一貫したマスク生成を可能にします。
このモデルは、オープンボキャブラリ、指示対象の参照、グラウンディングに基づく会話生成、インタラクティブ、視覚グラウンディング型など、多様なセグメンテーション課題を画像・動画の両方で扱えるよう設計されています。
さらに、インタラクティブな視覚プロンプトから動画のオブジェクト・トラックをセグメントできるかを評価するVideo Visual Grounded（V-VGD）ベンチマークを提案しています。
異種の画像・動画データセットに対する共同学習により、動画セグメンテーションで強い性能を示しつつ、画像セグメンテーションの競争力と画像・動画チャット能力を維持すると述べられています。

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

Dev.to

Dev.to

Dev.to

Reddit r/MachineLearning

Dev.to