普遍的な骨格ベース動作認識に向けて
arXiv cs.CV / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ロボティクスの実環境で重要となる「普遍的」な骨格ベース動作認識を対象にし、異なる人やヒューマノイドロボット由来の骨格によりデータが不均一になり得る点に焦点を当てています。
- 複数の大規模な骨格動作データセットを統合・精緻化して、オープンボキャブラリ設定を支えるHeterogeneous Open-Vocabulary(HOV)Skeletonデータセットを新たに構築しています。
- 著者らは、統一的な骨格表現、骨格のためのモーションエンコーダ、多粒度のモーション–テキスト整合を含むTransformerベースの枠組みを提案しています。
- モーションエンコーダは時空間的な動作表現を学習するために多モーダルな骨格埋め込みを2ストリームTransformerに入力し、その後テキスト埋め込みと整合する意味空間へ写像します。
- グローバル、ストリーム固有、微細な3レベルでコントラスト学習を行ってモーションとテキストの整合を強化し、異種骨格データを用いた主要ベンチマークで有効性と汎化性能が示されています。
関連記事

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる
Reddit r/LocalLLaMA

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA