DeVI：合成ビデオ模倣による物理ベースの巧みな人と物体の相互作用

arXiv cs.CV / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

DeVIは、主に2Dで生成された人と物体の相互作用ビデオの限界を克服し、テキスト条件付きの生成手がかりを巧みなエージェントの物理的にもっともらしい制御へ変換することを目的とした枠組みです。
生成の不正確さを抑えるために、3Dの人のトラッキングと堅牢な2Dの物体トラッキングをハイブリッド報酬として統合し、物理ベースの模倣精度を高めます。
高品質な3Dキネマティクスデモに依存する従来手法とは異なり、DeVIは生成ビデオのみを必要とするため、未知の対象物や多様な相互作用タイプへゼロショットで汎化できます。
実験では、DeVIが3Dの人と物体の相互作用デモを模倣する既存手法よりも優れており、とりわけ巧みな手と物体の相互作用のモデリングで効果が高いことが報告されます。また、複数物体シーンやテキスト駆動の多様な行動でも有効性を検証しています。

要旨: 近年のビデオ生成モデルの進歩により、幅広いシナリオやオブジェクトカテゴリにおいて、現実的な人と物体の相互作用（HOI）の動画を合成できるようになってきました。これには、モーションキャプチャシステムでは捉えがたい複雑な器用な（dexterous）操作も含まれます。こうした合成動画に埋め込まれた豊富な相互作用の知識は、器用なロボット操作における運動計画に強い可能性をもたらす一方で、物理的な忠実度が限られており、かつ純粋に2Dであるため、物理ベースのキャラクタ制御における模倣ターゲットとしてそのまま直接利用することが難しくなっています。本研究では、DeVI（Dexterous Video Imitation）という新しい枠組みを提案します。これは、テキスト条件付きの合成動画を活用することで、見えていないターゲット物体と相互作用するための、物理的にもっともらしい（physically plausible）器用なエージェント制御を可能にします。生成された2Dの手がかりの不正確さを克服するために、3Dの人の追跡と、頑健な2Dの物体追跡を統合したハイブリッドな追跡報酬を導入します。高品質な3D運動学デモに依存する手法とは異なり、DeVIは生成動画のみを必要とするため、さまざまな物体や相互作用タイプにわたってゼロショットで汎化できます。大規模な実験により、DeVIが、3Dの人と物体の相互作用デモを模倣する既存手法よりも優れていること、特に器用な手—物体の相互作用をモデリングする点で優位であることを示します。さらに、複数物体のシーンやテキストに駆動された行動の多様性においてDeVIの有効性を検証し、HOIを意識した運動プランナーとして動画を用いる利点を示します。