効率的なビデオ言語事前学習のためのクラスター単位の時空間マスキング

arXiv cs.CV / 2026/3/25

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模なビデオ言語事前学習を計算効率良く行うことを目的とした、ClusterSTM というクラスター単位の時空間マスキング手法を提案する。
  • ClusterSTM は、従来のマスク付きビデオモデリングにおける2つの主要課題、すなわち高いマスキング率での過度な視覚情報の損失と、フレーム間の相関による時間情報の漏洩に対処する。
  • 本手法はまず、同一フレーム内でクラスタリングを行い、視覚トークンを意味的に独立したクラスタにグループ化し、その後、各クラスタに対してクラスター単位のマスキングを適用することで、クラスタごとに時間的密度が最も高いトークンを保持する。
  • さらに、標準的な視覚再構成を超えて高次のマルチモーダル意味論を整合させるために設計された、ビデオ-テキストの関連性再構成目的によって本アプローチは強化される。
  • 複数のベンチマークにわたる実験により、ビデオ-テキスト検索、ビデオ質問応答、ビデオキャプション生成において性能が向上し、効率的なビデオ言語モデルの中で新たな最先端(SOTA)結果として報告される。