要旨: 現実的な3Dハンド・オブジェクト相互作用(HOI)を生成することは、計算機視覚とロボティクスにおける基本的な課題であり、時間的な整合性と高い忠実度での物理的妥当性の両方が求められます。既存の手法は、生成のための表現力のある運動表現を学習する能力、ならびに時間的推論を行う能力において依然として限界があります。本論文では、テキストと正準的な3Dオブジェクトから現実的なハンド・オブジェクト運動系列を合成するための枠組みであるHO-Flowを提案します。HO-Flowはまず、相互作用を意識した変分オートエンコーダを用いて、ハンドとオブジェクトの運動学(kinematics)を取り込むことで、ハンドとオブジェクトの運動系列を統一された潜在空間(latent manifold)へ符号化します。これにより、豊かな相互作用ダイナミクスを捉える表現を可能にします。次に、自動回帰的な時間的推論と、連続的な潜在生成を組み合わせるマスク付きフローマッチングモデルを活用し、時間的整合性を向上させます。さらに汎化性能を高めるために、HO-Flowは初期フレームに対する相対的なオブジェクト運動を予測し、 大規模な合成データに対する効果的な事前学習を可能にします。GRAB、OakInk、DexYCBのベンチマークにおける実験により、HO-Flowが、相互作用運動合成において、物理的妥当性と運動多様性の両方で最先端の性能を達成することを示します。
HO-Flow:潜在フローマッチングによる汎化可能な手—物体インタラクション生成
arXiv cs.RO / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- HO-Flowは、テキストと代表的な3D物体(canonical 3D object)から、現実的な3D手—物体インタラクション(HOI)のモーション系列を生成するための新しいフレームワークであり、時間的な一貫性と物理的もっともらしさを目標としています。
- 手法はまず、相互作用に着目した変分オートエンコーダを用いて、手と物体のモーション系列を統一された潜在空間へ写像します。この際、手/物体の運動学(キネマティクス)を取り込むことで、相互作用ダイナミクスをより適切に捉えます。
- 次に、マスク付きフローマッチングモデルを適用し、自己回帰的な時間的推論と連続的な潜在生成を融合させることで、フレーム間の時間的一貫性を向上させます。
- 学習データを超えた汎化性を高めるために、HO-Flowは最初のフレームに対する物体の運動を予測し、大規模な合成データセットでの効果的な事前学習を可能にします。
- GRAB、OakInk、DexYCBでの実験により、最先端の結果が示され、インタラクション合成において物理的もっともらしさとモーション多様性の両方が改善されています。

