Abstract
画像から手を再構成する研究では大きな進展があり、正確な単一フレーム推定が実現されていますが、それらはしばしば物理整合性を欠き、運動が物理法則をどれくらい満たしているかについての確信度の概念を提供しません。本論文では、物理に配慮した新しい条件付き拡散フレームワークを提案し、ノイズを含む姿勢系列を物理的にもっともらしい手の運動へと洗練しつつ、運動推定における物理の分散も推定します。MeshCNN-Transformer を基盤として、関節化された手のためのオイラー=ラグランジュのダイナミクスを定式化します。これまでの研究がゼロ残差を強制していたのに対し、得られる動的残差を仮想的な観測量として扱うことで、物理の統合をより効果的に行います。末層のラプラス近似を通じて、本手法は関節ごと・時間ごとの分散を生成し、これにより物理整合性を測定します。また、物理整合性が弱まる箇所を示す解釈可能な分散マップを提供します。2つのよく知られた手のデータセットに対する実験では、強力な画像ベースの初期化に対して一貫した向上が示され、さらに動画ベースの手法とも競争力のある結果が得られます。定性的結果は、分散推定が、画像ベースの推定における運動の物理的妥当性と整合していることを確認しています。