CEZSAR:ゼロショット行動認識のためのコントラスト埋め込み手法
arXiv cs.CV / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、学習時に見えていないクラスを分類するゼロショット行動認識(ZSAR)向けに、コントラスト学習を用いた手法CEZSARを提案する。
- ZSARにおける主要課題である、テキスト由来のラベル表現と視覚特徴の間のセマンティック・ギャップと、未知のテストセットによって生じるドメインシフトの両方に取り組む。
- CEZSARは、動画と文をそれぞれエンコードして両者を同一のジョイント埋め込み空間に入れ、動画と自然言語による記述を整合させることで学習する。
- 学習を強化するため、オートマチックなネガティブサンプリングにより、対になっていない例(視覚の外観と無関係な説明)を生成してコントラスト学習に活用する。
- 実験では、UCF-101とKinetics-400で複数の分割設定において最先端の性能を報告しており、コードはGitHubで公開されている。




