普遍的な骨格ベース動作認識に向けて

arXiv cs.CV / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ロボティクスの実環境で重要となる「普遍的」な骨格ベース動作認識を対象にし、異なる人やヒューマノイドロボット由来の骨格によりデータが不均一になり得る点に焦点を当てています。
複数の大規模な骨格動作データセットを統合・精緻化して、オープンボキャブラリ設定を支えるHeterogeneous Open-Vocabulary（HOV）Skeletonデータセットを新たに構築しています。
著者らは、統一的な骨格表現、骨格のためのモーションエンコーダ、多粒度のモーション–テキスト整合を含むTransformerベースの枠組みを提案しています。
モーションエンコーダは時空間的な動作表現を学習するために多モーダルな骨格埋め込みを2ストリームTransformerに入力し、その後テキスト埋め込みと整合する意味空間へ写像します。
グローバル、ストリーム固有、微細な3レベルでコントラスト学習を行ってモーションとテキストの整合を強化し、異種骨格データを用いた主要ベンチマークで有効性と汎化性能が示されています。

Abstract

ロボティクスの発展により、スケルトン（骨格）に基づく行動認識はますます重要になっています。人とロボットの相互作用では、人間やヒューマノイドロボットの動作を理解する必要があるためです。人間のスケルトンの取得元や、ヒューマノイドロボットの構造が異なるため、スケルトンデータは自然に異質性を示します。しかし、従来の研究はスケルトンのデータ異質性を見落としており、同質なスケルトンのみを用いてモデルを構築してきました。さらに、オープン語彙による行動認識も現実の応用において不可欠です。そこで本研究では、オープン語彙を扱う異質なスケルトンに基づく行動認識という難しい問題に取り組みます。複数の代表的な大規模スケルトンベース行動データセットを統合し、精錬することで、大規模な異質オープン語彙（HOV）スケルトンデータセットを構築します。普遍的なスケルトンベース行動認識を実現するために、3つの主要コンポーネントからなるTransformerベースのモデルを提案します：統一されたスケルトン表現、スケルトンのためのモーションエンコーダ、多粒度のモーション‐テキスト整合です。モーションエンコーダは、複数モーダルのスケルトン埋め込みを2ストリームのTransformerベースエンコーダに入力し、時空間の行動表現を学習します。学習した表現は、その後セマンティック空間へ写像され、テキスト埋め込みと整合させられます。多粒度のモーション‐テキスト整合では、対照学習を3つのレベルで組み込みます：グローバルなインスタンス整合、ストリーム固有の整合、そして微細な整合です。異質なスケルトンデータを用いた、広く用いられているベンチマークでの大規模な実験により、本手法の有効性と汎化能力の両方が示されています。コードは https://github.com/jidongkuang/Universal-Skeleton で公開されています。