トランポリン体操におけるヒト姿勢推定:新しい合成データセットによるパフォーマンス向上

arXiv cs.CV / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、トランポリン体操においてヒト姿勢推定の性能が低い問題に取り組む。選手は極端な姿勢を取り、また不自然な多視点の撮影状況となるためである。
  • 研究者らは新しい合成データセット STP を提案する。モーションキャプチャで取得したトランポリン演技データから、ノイズのある mocap をパラメトリックな人体モデルに適合させ、現実的な多視点画像をレンダリングして生成する。
  • STP 上で ViTPose モデルを微調整(ファインチューニング)する。2D のキーポイント精度が向上し、その効果が三角測量による 3D 姿勢復元の改善にもつながる。
  • 難度の高い実際の多視点トランポリン画像に対して、微調整後のモデルは最先端(state-of-the-art)の 2D 結果を達成し、3D MPJPE を 12.5 mm 減少させる(事前学習済み ViTPose に対する 19.6% の改善)。
  • 本研究は、「一般的」な姿勢シナリオと、非常に非典型的な体操の姿勢との間の性能ギャップを縮小し、ドメイン特化した知覚に対する合成データの有用性を示している。

Abstract

トランポリン体操は、極端な人体姿勢や一般的でない視点を伴いますが、最先端の姿勢推定モデルはそのような条件下で性能が十分に発揮されない傾向があります。本研究では、合成トランポリン姿勢のデータセット(STP)に対して姿勢推定モデルを微調整(fine-tuning)することで、この問題に対処できることを示します。STPは、トランポリン演技のモーションキャプチャ記録から生成されます。ノイズのあるモーションキャプチャデータをパラメトリックな人体モデルに適合させるためのパイプラインを開発し、その後、複数視点の現実的な画像を生成します。得られたデータを用いてViTPoseモデルを微調整し、実際の多視点トランポリン画像で評価します。その結果得られたモデルは、2Dにおいて精度が向上し、この改善が3Dの三角測量の精度向上につながります。2Dでは、このような難しいデータに対して最先端の結果を達成し、一般的な姿勢と極端な姿勢の間にある性能差を埋めます。3Dでは、最良のモデルによりMPJPEを12.5 mm削減し、事前学習済みのViTPoseモデルと比べて19.6%の改善に相当します。