コントラスト学習に基づく映像品質評価と結合された Video Vision Transformer による動画認識

arXiv cs.CV / 2026/3/12

📰 ニュースModels & Research

要点

  • 本論文は SSL-V3 を提案する。これは、Self-Supervised Learning ベースの Video Vision Transformer とノーリファレンス VQA を組み合わせた映像分類の手法であり、VQA におけるラベル不足を解消することを目的とする。
  • Combined-SSL 構造を導入し、映像品質スコアを用いて映像分類の特徴マップを直接調整することで、VQA と分類を監督付きの目的を通じて結びつけ、VQA を調整する。
  • アプローチは自己教師付き学習を活用して VQA を映像認識と融合し、分類タスクを監督として用いることで、VQA のラベル付きデータの不足を緩和する。
  • 2つのデータセットで堅牢な結果を報告しており、I-CONECT 医療データセットの面接動画で 94.87% の正確度を達成するなど、効果を示している。
  • 映像品質を明示的に考慮することで、映像品質評価と認識性能の両方を共同設定で改善する。
映像品質は映像分類に大きく影響します。私たちは、明瞭な動画から軽度認知障害をうまく分類できる一方、ぼやけた動画からはそうでないときにこの問題を見出しました。そこから、映像品質評価(VQA)を参照することが映像分類を改善する可能性があると認識しました。本論文では、自己教師あり学習ベースの Video Vision Transformer をノーリファレンス VQA と組み合わせた SSL-V3 を提案し、目的を達成することを目指します。SSL-V3 は Combined-SSL メカニズムを活用して VQA を映像分類に結合し、よくあるビデオデータセットにおける VQA のラベル不足に対処し、正確な映像品質スコアを提供できなくなる状況を緩和します。要するに、Combined-SSL は映像品質スコアを要因として動画分類の特徴マップを直接調整します。次に、そのスコアは VQA と分類を結びつける交差点として機能し、教師ありの分類タスクを用いて VQA のパラメータをチューニングします。SSL-V3 は2つのデータセットで堅牢な実験結果を達成しました。例えば、I-CONECT(顔動画を含む医療データセット)の一部のインタビュー動画において 94.87% の正確度に達し、SSL-V3 の有効性を検証しています。