効果的かつ効率的なビデオの教師なしドメイン適応のための学習可能なモーション重視トークン化
arXiv cs.CV / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、行動認識のためのビデオ教師なしドメイン適応(VUDA)に取り組む。そこでは、ラベル付きソースデータで学習したモデルを、ラベルなしのターゲットビデオドメインへ適応させる必要がある。
- 一般的な失敗の原因は、静的で情報量の少ない背景がドメインシフトを増大させること、そして既存手法が計算効率の制約を無視していることにあると主張する。
- 提案するLearnable Motion-Focused Tokenization(LMFT)は、フレームをパッチトークンへ変換しつつ、低モーションで冗長なトークン(多くの場合背景)を落とすことを学習し、行動に結びついたモーション豊富なトークンを保持する。
- 21のドメイン適応設定にまたがる3つの標準的なVUDAベンチマークでの実験により、最先端の性能に加えて、計算オーバーヘッドの大幅な削減が報告されている。



