FlashCap: フラッシュLEDとイベントベース視覚を用いたミリ秒精度の人間モーションキャプチャ

arXiv cs.CV / 2026/3/23

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • 本論文は、フラッシュLEDとイベントベース視覚を用いて、人間のポーズ推定における正確な動作タイミングを実現するミリ秒精度のモーションキャプチャシステム FlashCap を提案します。
  • FlashCapは、ミリ秒解像度のマルチモーダルデータセット FlashMotion を可能にします。これは、イベントデータ、RGB、LiDAR、IMU を含むデータ収集であり、PMT の高時間分解能データギャップを埋めることを目的としています。
  • 本研究は、イベントとRGBを融合し姿勢推定誤差を約40%低減する残差ポーズ学習のベースライン ResPose を提案します。
  • 著者らはデータセットとコードをコミュニティと共有し、高時間分解能のHPEおよびPMTにおける新たな研究機会を促進する予定です。

要旨:正確な動作タイミング(PMT)は、迅速な動作解析にとって極めて重要です。ミリ秒単位の差がスポーツ競技の勝敗を決定づけることがあります。人間のポーズ推定(HPE)における顕著な進歩にもかかわらず、高時間分解能のラベル付きデータセットの入手が限られているため、PMTはHPEコミュニティでほとんど注目されていません。現在、PMTはオリンピック競技のような特別な場面で高速RGBカメラを使用して達成されています。しかし、それらの高コスト、光感度、帯域幅、計算の複雑さが日常的な使用の実現性を制限します。私たちは、PMT用の点滅LEDベースのモーションキャプチャ(MoCap)システムとしてFlashCapを開発しました。FlashCapを用いて、イベント、RGB、LiDAR、IMUのモダリティを含むミリ秒分解能の人間の動作データセットFlashMotionを収集し、厳密な検証を通じてその高品質を実証します。FlashMotionの利点を評価するため、2つのタスクを実行します:正確な動作タイミングと高時間分解能のHPE。これらのタスクのために、イベントとRGBに基づいて残差ポーズを学習する、シンプルでありながら効果的なベースラインとしてResPoseを提案します。実験結果は、ResPoseがポーズ推定誤差を約40%低減し、ミリ秒レベルのタイミング精度を達成して、新しい研究機会を可能にすることを示しています。データセットとコードはコミュニティと共有されます。