概要: 手—物体相互作用(HOI)を理解することは、コンピュータビジョン、ロボティクス、およびAR/VRにとって基礎となるものです。しかし、従来の手の動画は、接触力や運動の信号などの重要な物理情報を欠いていることが多く、頻繁な遮蔽(オクルージョン)にも影響されやすいです。これらの課題に対処するために、私たちは、マルチモーダルセンシンググローブのHOI動画をフォトリアルな素手へと変換しつつ、基盤となる物理的相互作用のダイナミクスを忠実に保持するフレームワーク「Glove2Hand」を提案します。さらに、時間的レンダリング一貫性を保証する新しい3Dガウス手モデルを導入します。レンダリングされた手は、拡散ベースの手の修復器(hand restorer)によってシーンへシームレスに統合され、複雑な手—物体相互作用や非剛体(ノンリジッド)な変形を効果的に扱います。Glove2Handを活用して、グローブから手への動画に、同期された触覚(タクタイル)およびIMU信号を備えた、初のマルチモーダルHOIデータセット「HandSense」を作成します。HandSenseにより、重度の遮蔽下における手の追跡や、動画ベースの接触推定を含む、下流の素手アプリケーションが大幅に向上することを示します。
Glove2Hand:マルチモーダル・センシング・グローブから自然な手—物体インタラクションを合成する
arXiv cs.CV / 2026/3/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Glove2Handは、マルチモーダルなセンシング・グローブのHOI(手—物体相互作用)ビデオを、手と物体の間の物理的な相互作用ダイナミクスを維持したまま、フォトリアルな素手のレンダリングへ変換するための提案フレームワークである。
- 本手法には、ビデオの各フレーム間で時間的一貫性のあるレンダリングを保つことを目的とした、新しい3Dガウス手モデルが含まれている。
- 拡散ベースの「hand restorer(手復元器)」を用いて、レンダリングした手を元のシーンへシームレスに統合し、複雑な相互作用や非剛体(非リジッド)な変形にも対応する。
- また、本研究では、グローブから手への映像に対応付けられた、同期タクタイル(触覚)信号とIMU信号を提供する、最初のマルチモーダルHOIデータセットとしてHandSenseを提案する。
- 実験により、Glove2Handは、特に深刻な遮蔽(オクルージョン)条件下において、接触推定や手追跡などの下流タスクの性能を向上させることが示されている。
