教師なしアクションセグメンテーションのためのディープカーネルによる動画近似

arXiv cs.CV / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、大規模データセットの保存が制限または禁止されるような状況を想定した、1本の動画単位で行う教師なしアクションセグメンテーション手法を提案します。
  • 動画を、深いカーネル空間で近似を学習し、フレーム分布の近さを最大平均差異(MMD)で評価することで分割します。
  • カーネル空間の定義にはニューラルタンジェントカーネル(NTK)を用い、固定カーネルより表現力を高めるとともに、近似とカーネル関数を同時に学習する際の自明な解を回避します。
  • 6つの標準ベンチマークで既存の最先端手法と比較した結果、競争力のある性能を示し、セグメント数が未知の場合でも先行するアグロメレーティブ系手法より高いF1スコアを達成します。

Abstract

本研究は、ビデオごとの教師なしアクションセグメンテーションに焦点を当てるものであり、大規模データセットの保存が不可能である、または許可されていないアプリケーションにとって関心のある課題です。本研究では、基礎となるフレーム分布を可能な限り厳密に近似するために、深いカーネル空間での学習によりビデオをセグメント化する手法を提案します。元のビデオ分布とその近似との間の「近さ」を定義するために、分布空間における幾何学を保った指標である最大平均差(MMD)を用います。これにより、より信頼性の高い推定が得られます。さらに、一般に用いられる最適輸送(optimal transport)指標とは異なり、MMDは最適化が容易であるだけでなく高速でもあります。カーネル空間を定義するためには、固定カーネルに比べて記述力が向上していることから、ニューラル・タンジェント・カーネル(NTK)を用いることを選びます。また、入力(ビデオ近似)とカーネル関数を同時に学習する際に、NTKは自明な解を回避します。最後に、6つの標準的なベンチマークにおいて、最新のビデオごとの手法と比較して競争力のある結果を示します。加えて、セグメント数が未知の場合においても、本手法は先行する凝集(agglomerative)手法より高いF1スコアを達成します。