TTA-Vid：ビデオ推論のための一般化されたテスト時適応

arXiv cs.CV / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、明示的なラベルや正解アノテーションを必要とせずに、入力された動画に対して事前学習済みモデルを適応させるビデオ推論のための、一般化されたテスト時適応手法 TTA-Vid を提案する。
TTA-Vid は推論時に複数のフレーム部分集合に対して段階的な推論を行い、それらの部分集合間で算出されるバッチ対応・頻度ベースのリワードを擬似的な正解（pseudo ground truth）として用いてモデルを更新する。
著者らは、適応手続きにおいて単一バッチだけ、あるいは単一サンプルだけを用いて適応したモデルでも、データセット全体に対して一般化できることに加え、テスト時に他のデータセットへ転移できることを報告している。
効率と有効性を高めるために、本手法は同一のリワード定式化を用いながら、より情報量の多いフレームを適応的に選択するマルチアームド・バンディット戦略を含む。
複数のビデオ推論タスクに対する実験の結果、安定した向上が確認されており、大規模な教師あり学習に依存する既存の最先端手法を TTA-Vid が上回り得ることが示される。

Abstract

最近の動画推論モデルは、時間的およびマルチモーダルな理解において強い結果を示しているものの、大規模な教師ありデータと複数段階の学習パイプラインに依存しており、学習コストが高く、新しい領域への適応が難しいという課題があります。本研究では、動画と言語のデータに対するテスト時強化学習（Test-Time Reinforcement Learning）のパラダイムを活用し、明示的なラベルなしで、テスト時に到来する動画サンプルへ事前学習済みモデルを適応させることを可能にします。提案する動画に対するテスト時適応（TTA-Vid）は、同時に機能する2つのコンポーネントを組み合わせます：(1) テスト時適応により、推論時に複数のフレーム部分集合に対して逐次的な推論を実行します。次に、異なるフレーム部分集合にわたって計算されたバッチを考慮した頻度ベースの報酬を、擬似的な正解（pseudo ground truth）として用いてモデルを更新します。単一バッチ、あるいはデータセットからの単一サンプルだけで学習された結果のモデルでも、テスト時にデータセット全体へ、さらにデータセットをまたいで一般化できることを示します。適応は完全にテスト時に行われるため、本手法は正解アノテーションや専用の学習分割を必要としません。加えて、同じ報酬の定式化に導かれた、多腕バンディット戦略による適応的なフレーム選択を提案します。評価の結果、TTA-Vidはさまざまな動画推論タスクにわたって一貫した改善をもたらし、大規模データで学習された現行の最先端手法を上回ることができることが示されました。これは、時間的マルチモーダル理解に対するテスト時強化学習の可能性を浮き彫りにします。