CMTM：教師なしビデオ物体セグメンテーションのためのクロスモーダルトークンモジュレーション

arXiv cs.CV / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、二ストリーム構成における外観（appearance）と動き（motion）の手掛かりの結び付きを強めるための「クロスモーダルトークンモジュレーション」を提案している。
外観モダリティと動きモダリティそれぞれのトークン間に密な接続を構築し、リレーショントランスフォーマーブロックでモダリティ内外へ情報伝播を行う。
モデルを単に複雑化するだけに頼らず、学習効率を高めるためにトークンマスキング戦略を導入する。
提案手法は公開ベンチマークすべてで最先端（SOTA）の性能を達成し、既存手法を上回ると報告されている。

Abstract

最近の教師なしビデオ物体セグメンテーションにおける進展は、外観と運動の手がかりを統合する二流（two-stream）アーキテクチャの可能性を明らかにしています。しかし、これらの補完的な情報源を十分に活用するには、それらの相互依存関係を効果的にモデリングする必要があります。本論文では、外観と運動の手がかりの相互作用を強化することを目的とした新しいアプローチである、クロスモダリティ・トークン・モジュレーションを提案します。提案手法は、各モダリティのトークン間に密な接続を確立し、リレーション・トランスフォーマー・ブロックを通じて、効率的なモダリティ内およびモダリティ間の情報伝播を可能にします。学習効率を改善するために、モデルの複雑さを単に増やすことに依存することの限界に対処するトークン・マスキング戦略を組み込みます。本手法は、すべての公開ベンチマークにおいて最先端の性能を達成し、既存の手法を上回ります。