要旨: テキスト条件付きの人間のモーション生成における最近の進展は、主に大規模な人間モーションデータで訓練された拡散モデルによって推進されてきた。この進展を踏まえ、近年の手法は拡散生成モーションを実行可能な軌跡へ変換する全身コントローラ(WBC)を適用することで、キャラクターアニメーションや実機ロボット制御へとこれらのモデルを転用しようとしている。WBCの軌道は物理法則に適合するようになる一方で、元のモーションからかなりの逸脱を生じることがある。この問題に対処するため、本研究では PhysMoDPO、直接嗜好最適化フレームワークを提案する。従来の手法が足滑りペナルティのような手作りの物理認識ヒューリスティクスに依存しているのとは異なり、我々は WBC を訓練パイプラインに組み込み、WBC の出力が物理法則と元のテキスト指示の双方に適合するよう拡散モデルを最適化する。PhysMoDPO を訓練するために、物理ベースの報酬とタスク特有の報酬を導入し、それらを用いて合成された軌跡に対する嗜好を割り当てる。テキストからモーションへの変換と空間制御タスクに関する広範な実験は、シミュレートされたロボットにおいて物理的リアリズムとタスク関連指標の双方で PhysMoDPO が一貫して改善されることを示している。さらに、シミュレーションにおけるゼロショットモーション転送や現実世界での G1 ヒューマノイドロボットへの展開に適用した場合、PhysMoDPO が顕著な改善をもたらすことを示している。
PhysMoDPO: 好み最適化を用いた物理的に妥当なヒューマノイドモーション
arXiv cs.LG / 2026/3/16
📰 ニュースModels & Research
要点
- 本論文は、物理ベースおよびタスク固有の報酬から導かれる好みを用いて拡散ベースのモーションモデルを訓練する Direct Preference Optimization フレームワーク PhysMoDPO を紹介する。
- 全身制御器(WBC)を訓練パイプラインに組み込み、生成されたモーションが実行可能であり、テキスト指示を遵守することを保証し、手作りの物理ヒューリスティクスへの依存を減らす。
- この手法は、WBC の出力が物理法則に適合しつつ、元のモーション指示に忠実になるよう拡散モデルを最適化し、物理的リアリズムとタスク性能を向上させる。
- テキストからモーションへの変換および空間制御タスクに関する実験は、物理的リアリズムと下流指標の一貫した改善を示し、ゼロショットモーション転送の強化や、G1 ヒューマノイドロボットへの実世界展開の成功を含む。