効果的かつ効率的なビデオの教師なしドメイン適応のための学習可能なモーション重視トークン化

arXiv cs.CV / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、行動認識のためのビデオ教師なしドメイン適応（VUDA）に取り組む。そこでは、ラベル付きソースデータで学習したモデルを、ラベルなしのターゲットビデオドメインへ適応させる必要がある。
一般的な失敗の原因は、静的で情報量の少ない背景がドメインシフトを増大させること、そして既存手法が計算効率の制約を無視していることにあると主張する。
提案するLearnable Motion-Focused Tokenization（LMFT）は、フレームをパッチトークンへ変換しつつ、低モーションで冗長なトークン（多くの場合背景）を落とすことを学習し、行動に結びついたモーション豊富なトークンを保持する。
21のドメイン適応設定にまたがる3つの標準的なVUDAベンチマークでの実験により、最先端の性能に加えて、計算オーバーヘッドの大幅な削減が報告されている。

Abstract

動画の教師なしドメイン適応（VUDA）は、行動認識において大きな課題であり、ラベル付きのソースドメインから、ラベルなしのターゲットドメインへモデルを適応させる必要があります。近年の進展にもかかわらず、既存のVUDA手法は多くの場合、完全に教師ありに匹敵する性能を十分に達成できていません。その重要な理由は、静的で情報量の乏しい背景の存在がドメインシフトを悪化させることにあります。さらに、従来のアプローチは計算効率をほとんど考慮していないため、実世界での導入が制限されています。これらの問題に対処するために、本研究ではVUDAのための学習可能なモーション重視トークン化（Learnable Motion-Focused Tokenization, LMFT）を提案します。LMFTは動画フレームをパッチトークンに分割し、主として背景領域に対応する低モーションで冗長なトークンを捨て去ることを学習しつつ、適応に有用なモーション豊富で行動に関連するトークンを保持します。21のドメイン適応設定にわたる、3つの標準的なVUDAベンチマークでの大規模な実験の結果、LMFTを用いた本VUDAフレームワークは、計算オーバーヘッドを大幅に削減しながら最先端の性能を達成することが示されました。したがって、LMFTは有効でありながら計算効率にも優れたVUDAを可能にします。