Action Motifs:自己教師ありによる人の身体動作の階層表現

arXiv cs.CV / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は「Action Atoms」(関節の原子的な動き)と「Action Motifs」(時間的な合成によって形成され、全体として異なる動作間でも共有される身体動作パターン)から成る階層的な動作表現を提案しています。
  • A4Merはネストされた潜在(latent)Transformerで、3Dポーズデータから完全自己教師ありでこの構造を学習し、ポーズ系列を可変長セグメントに分割して各セグメントを1つの潜在トークン(Action Atoms)として表現します。
  • Action AtomsとAction Motifsそれぞれの潜在空間に対して統一的なマスク付きトークン予測の事前学習タスクを用いることで、ボトムアップに時間パターンを自然に抽出できるようにしています。
  • トレーニングと評価のために、Action Motif Dataset(AMD)を提示します。これはSMPLによる完全アノテーション付きの大規模マルチビュー動画データセットで、頻繁かつ重い身体の遮蔽下でもフレームごとのラベルを得るためにカメラを足に取り付ける工夫を導入しています。
  • 実験結果では、A4Merが意味のあるAction Motifsの抽出に有効であり、行動認識、モーション予測、モーション補間といった人の行動モデリング課題で大きく役立つことが示されています。

Abstract

効果的なヒトの行動モデリングには、その構成性(compositionality)を活用した、ヒトの身体の動きの表現が必要です。私たちは、関節の原子的な動きを捉える Action Atom(行動アトム)から成り、さらにそれらの時間的な合成によって形成され、異なる全体的なヒトの行動の中に見られる類似した身体動作を符号化する Action Motif(行動モチーフ)を含む階層的表現を提案します。私たちは、人のポーズデータからこの階層的表現を、完全に自己教師あり(fully self-supervised)的に学習するための入れ子状の潜在(nested)Transformerである A4Mer を導出します。A4Mer は、3Dポーズ系列を可変長セグメントへ分割し、各セグメントを単一の潜在トークン(Action Atoms)として表現します。ボトムアップの表現学習により、これらの Action Atoms によって構成され、再利用可能で意味のある身体動作セグメントの、意味のある時間的範囲を捉える時間パターンが自然に現れます(Action Motifs)。A4Mer は、このそれぞれの潜在空間におけるマスクトークン予測という統一的な前課題(unified pretext task)によってこれを実現します。さらに、全SMPLアノテーションを備えたマルチビューのヒト行動ビデオからなる大規模データセットである Action Motif Dataset(AMD)を導入します。身体の頻繁かつ大きなオクルージョンがあっても、フレームごとのアノテーションを実現するために、カメラを足に取り付けるという新しい利用法も提案します。実験結果は、A4Mer が意味のある Action Motifs を抽出するうえで有効であることを示しており、行動認識、モーション予測、モーション補間を含むヒトの行動モデリング課題に対して大きな恩恵をもたらします。