TTA-Vid:ビデオ推論のための一般化されたテスト時適応
arXiv cs.CV / 2026/4/2
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、明示的なラベルや正解アノテーションを必要とせずに、入力された動画に対して事前学習済みモデルを適応させるビデオ推論のための、一般化されたテスト時適応手法 TTA-Vid を提案する。
- TTA-Vid は推論時に複数のフレーム部分集合に対して段階的な推論を行い、それらの部分集合間で算出されるバッチ対応・頻度ベースのリワードを擬似的な正解(pseudo ground truth)として用いてモデルを更新する。
- 著者らは、適応手続きにおいて単一バッチだけ、あるいは単一サンプルだけを用いて適応したモデルでも、データセット全体に対して一般化できることに加え、テスト時に他のデータセットへ転移できることを報告している。
- 効率と有効性を高めるために、本手法は同一のリワード定式化を用いながら、より情報量の多いフレームを適応的に選択するマルチアームド・バンディット戦略を含む。
- 複数のビデオ推論タスクに対する実験の結果、安定した向上が確認されており、大規模な教師あり学習に依存する既存の最先端手法を TTA-Vid が上回り得ることが示される。




