ロボット中心の動画生成による形態整合的なヒューマノイド相互作用

arXiv cs.RO / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Dream2Act は、ロボット中心のゼロショットインタラクションフレームワークを提案します。これは、ロボットを第三者視点で写した画像とターゲット物体を用いて動画生成を介して妥当なロボット運動を合成し、人間からロボットへのリターゲティングに起因する形態の不一致を回避します。
  • 高忠実度のポーズ抽出システムに依存して、合成された夢から実現可能なロボット固有のジョイント軌道を回復し、それらをロボット固有座標空間内の汎用的な全身コントローラで実行します。
  • ロボット固有座標系にとどまり、タスク固有のポリシー訓練を必要としないことで、接触形成を妨げる形態の不一致とリターゲティング誤差を克服します。
  • Unitree G1 の4つの全身タスク(ボールキック、ソファに座る、バッグパンチ、箱を抱きしめる)における実験で、Dream2Act は従来のリターゲティングの0%に対して37.5%の成功率を達成し、相互作用の信頼性を大幅に改善することを示しています。

要旨:人型ロボットに多様な対話スキルを搭載するには、通常、広範なポリシー訓練か、明示的な人間からロボットへの運動リターゲティングが必要となる。しかし、学習ベースのポリシーはデータ収集コストが高すぎる。一方、リターゲティングは人間中心の姿勢推定(例:SMPL)に依存し、形態ギャップを生む。骨格スケールのミスマッチは、ロボットへマッピングした際に深刻な空間的ずれを生じさせ、対話の成功を損なう。本研究では、生成的ビデオ合成を通じてゼロショット対話を可能にするロボット中心のフレームワーク Dream2Act を提案する。ロボットと対象物の第三者画像を与えると、我々のフレームワークはビデオ生成モデルを活用し、形態一貫性のある動作でタスクを完遂するロボットを想像する。高精度な姿勢抽出システムを用いて、これらの合成された「夢」から物理的に実現可能でロボット固有の関節軌道を回復し、後に汎用の全身コントローラで実行する。ロボット固有の座標空間内で厳密に動作するDream2Actは、リターゲティングエラーを回避し、タスク特有のポリシー訓練を排除する。我々は Unitree G1 上で、全身モバイル対話タスクの4つ、ボール蹴り、ソファへの着座、パンチバッグを打つ、箱を抱きしめるを評価する。Dream2Act は総合成功率37.5%を達成し、従来のリターゲティングの0%と比較して顕著に高い。形態ギャップのため、運動時に誤差が積み重なり正しい物理接触を確立できないリターゲティングに対して、Dream2Act はロボットと一致した空間配置を維持し、信頼性の高い接触形成とタスク完遂を大幅に高める。

広告