複雑な4Dマーカレス人体モーションキャプチャのためのデータセットと評価

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文は、マルチパーソンの相互作用や大規模な遮蔽など、現実世界の課題をより反映することを目的とした、複雑な4Dマーカレス人体モーションキャプチャの新しいデータセットと評価ベンチマークを提案する。
このデータセットには、正確なカメラキャリブレーションを備えた同期済みのマルチビューRGBおよび深度シーケンス、Viconシステムによる真値の3Dモーション、そして密に整合した教師となる対応するSMPL/SMPL-Xパラメータが含まれる。
題材の服装が似通った被験者同士での位置の素早い入れ替わり、被験者間距離の変化、ならびに個人間の遮蔽が頻繁に発生する状況など、複雑な動きを扱う単一人および複数人の両方のシナリオをカバーしている。
ベンチマーク結果では、現在の最先端のマーカレス4D MoCapモデルが、これらの現実的な条件下で評価すると大幅な性能低下を示し、継続的なドメインギャップが明らかになった。
著者らは、対象を絞ったファインチューニングによって汎化性能が向上し得ることを報告しており、このデータセットがより頑健なモデル開発を促進するのに有効であることを示唆している。

要旨: マーカーに基づくモーションキャプチャ（MoCap）システムは、正確な4D人体モデリングにおいて長年にわたりゴールドスタンダードでした。しかし、専用ハードウェアやマーカーへの依存は、スケーラビリティや現実環境への展開を制限します。信頼性の高いマーカーレス4D人体モーションキャプチャを進展させるには、現実世界の人間の相互作用の複雑さを反映したデータセットが必要です。しかし、既存のベンチマークはしばしば、現実的な複数人のダイナミクス、深刻な遮蔽（オクルージョン）、そして困難な相互作用パターンを欠いており、その結果、持続的なドメインギャップが生じています。本研究では、複雑な4Dマーカーレス人体モーションキャプチャのための新しいデータセットと評価を提案します。提案するMoCapデータセットは、単一人物および複数人物の両方のシナリオを、複雑な動作、頻繁な人物間の遮蔽、同様の服装の被験者間における急速な位置交換、そして被験者間距離の変化を伴って収録します。さらに、同期されたマルチビューのRGBおよび深度（depth）シーケンス、正確なカメラキャリブレーション、Viconシステムによる真値の3Dモーションキャプチャ、ならびに対応するSMPL/SMPL-Xパラメータを含みます。この構成により、視覚観測とモーションの真値との間の精密な整合が保証されます。最先端のマーカーレスMoCapモデルをベンチマークすると、これらの現実的な条件下で顕著な性能低下が生じることが分かり、現在の手法の限界が浮き彫りになります。さらに、特定を目的としたファインチューニングによって汎化性能が改善することを示し、データセットの現実性とモデル開発における価値を検証します。本評価は、既存モデルにおける重要なギャップを明らかにし、頑健なマーカーレス4D人体モーションキャプチャを推進するための厳密な基盤を提供します。