Action Motifs:自己教師ありによる人の身体動作の階層表現
arXiv cs.CV / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は「Action Atoms」(関節の原子的な動き)と「Action Motifs」(時間的な合成によって形成され、全体として異なる動作間でも共有される身体動作パターン)から成る階層的な動作表現を提案しています。
- A4Merはネストされた潜在(latent)Transformerで、3Dポーズデータから完全自己教師ありでこの構造を学習し、ポーズ系列を可変長セグメントに分割して各セグメントを1つの潜在トークン(Action Atoms)として表現します。
- Action AtomsとAction Motifsそれぞれの潜在空間に対して統一的なマスク付きトークン予測の事前学習タスクを用いることで、ボトムアップに時間パターンを自然に抽出できるようにしています。
- トレーニングと評価のために、Action Motif Dataset(AMD)を提示します。これはSMPLによる完全アノテーション付きの大規模マルチビュー動画データセットで、頻繁かつ重い身体の遮蔽下でもフレームごとのラベルを得るためにカメラを足に取り付ける工夫を導入しています。
- 実験結果では、A4Merが意味のあるAction Motifsの抽出に有効であり、行動認識、モーション予測、モーション補間といった人の行動モデリング課題で大きく役立つことが示されています。




