CMTM:教師なしビデオ物体セグメンテーションのためのクロスモーダルトークンモジュレーション
arXiv cs.CV / 2026/4/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、二ストリーム構成における外観(appearance)と動き(motion)の手掛かりの結び付きを強めるための「クロスモーダルトークンモジュレーション」を提案している。
- 外観モダリティと動きモダリティそれぞれのトークン間に密な接続を構築し、リレーショントランスフォーマーブロックでモダリティ内外へ情報伝播を行う。
- モデルを単に複雑化するだけに頼らず、学習効率を高めるためにトークンマスキング戦略を導入する。
- 提案手法は公開ベンチマークすべてで最先端(SOTA)の性能を達成し、既存手法を上回ると報告されている。




