HVG-3D:3D-条件付き手-物体相互作用ビデオ合成における実世界とシミュレーション領域の橋渡し

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • HVG-3Dは、手-物体相互作用(HOI)のビデオ合成において、従来の2D条件信号では不足していた空間表現力を補うため、明示的な3D表現で制御する枠組みを提案しています。
  • 拡散ベースのアーキテクチャに3D ControlNetを組み込み、幾何学的・運動学的な手がかりを3D入力から符号化して、動画生成中に3D推論を行えるようにしています。
  • 学習・推論の両方で柔軟かつ精密な制御を可能にするため、入力および条件信号を構築するハイブリッドなパイプラインも設計されています。
  • 推論では「実画像1枚+3Dコントロール信号(シミュレーションまたは実データ由来)」を用いて、高品質かつ時間的に一貫した動画を生成し、空間・時間の制御性を高めています。
  • TASTE-Robデータセットで、空間忠実度・時間的コヒーレンス・制御性の面で最先端性能(state-of-the-art)を示し、実データとシミュレーションデータの両方を効果的に活用できると報告されています。