周波数強化拡散モデル:カリキュラムに導かれる意味整合によるゼロショット骨格動作認識

arXiv cs.CV / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文はゼロショット骨格動作認識(ZSAR)を対象とし、骨格のアノテーションを十分に用意できない状況でも、骨格信号とテキストプロンプト間で運動の意味(モーションセマンティクス)を整合させることで、未見の動作へ一般化することを目指す。
  • 拡散モデルのスペクトルバイアス(高周波ダイナミクスの過度な平滑化)に対処するため、骨格-テキストマッチングのための周波数対応拡散(FDSM: Frequency-Aware Diffusion for Skeleton-Text Matching)を提案する。周波数を意識した学習とアーキテクチャ上の追加により、これを改善する。
  • FDSMは、意味に導かれるスペクトル残差モジュール、タイムステップ適応型のスペクトル損失、およびカリキュラムに基づく意味抽象化を統合することで、細粒度の運動の詳細をより適切に復元する。
  • NTU RGB+D、PKU-MMD、Kinetics-skeletonを含む複数の骨格動作データセットで、最先端の性能を報告する。
  • 著者らはコードとプロジェクトのホームページを公開しており、コミュニティによる再現やさらなる実験を可能にする。

周波数強化拡散モデル:カリキュラムに導かれる意味整合によるゼロショット骨格動作認識 | AI Navigate