広告

ダンス・フィンガープリンティングのための量子化された構造保存モーション表現の学習

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、「ダンス・フィンガープリンティング」のためのエンドツーエンド・フレームワークであるDANCEMATCHを提案し、生の動画から意味的に類似した振付を直接検索できるようにする。
  • 従来のポーズ系列検索手法の限界に対処するため、連続的な埋め込みを、時空間構造を捉えつつ効率的なインデキシングを可能にする、コンパクトで離散的なモーション・シグネチャに置き換える。
  • DANCEMATCHは、Skeleton Motion Quantisation(SMQ)とSpatio-Temporal Transformers(STT)を組み合わせて、Apple CoMotion由来のポーズデータを、構造化されたモーションの語彙へ量子化する。
  • ユーザーにより精度の高いマッチングを実現するため、2段階の検索パイプライン—DANCE RETRIEVAL ENGINE(DRE)—を提案する。まずヒストグラムベースのサブリニア・インデックスで候補を絞り込み、その後に再ランキングを行う。
  • 著者らは、再現可能な研究を支えるための、ポーズ整合済みのデータセットDANCETYPESBENCHMARKを公開する。さらに、量子化されたモーション・トークンを含み、スタイルをまたいだ強力な検索性能や、未見の振付への一般化を報告している。

広告