アシストを学ぶ: 物理的根拠に基づく人間対人間の制御をマルチエージェント強化学習で実現

arXiv cs.CV / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、支援的で力を交換する人間同士のモーションの模倣を、マルチエージェント強化学習問題として定式化し、物理シミュレータ内で支援者と被支援者を共同訓練して、支援モーション参照を追従させます。
  • 学習時の探索を改善するため、単一人物のモーション追跡コントローラから事前知識を転移させるパートナー方針初期化スキームを導入します。
  • 動的参照再ターゲティングと接触促進報酬を提案し、被支援者のリアルタイム姿勢にアシスタントの参照モーションを適応させ、物理的に意味のあるサポートを促します。
  • 著者らは AssistMimic が確立されたベンチマーク上で支援的な相互作用モーションを成功裡に追従できる初の手法であることを示し、物理的根拠に基づくかつ社会性を備えたヒューマノイド制御のためのマルチエージェントRL定式化の価値を示しています。
本文: arXiv:2603.11346v1 アナウンス種別: new 要旨: ヒューマノイドロボティクスには日常のサービス提供や介護の応用を変革する強い潜在力があります。最近の物理エンジン内の一般的な運動追跡(GMT)の進歩は、仮想キャラクターやヒューマノイドロボットが広範な人間の動作を再現できるようにしましたが、これらの挙動は主に非接触の社会的相互作用や孤立した動作に限定されています。対照的に補助的なシナリオは、人間パートナーへの継続的な認識と、彼らの進化する姿勢とダイナミクスへの迅速な適応を必要とします。本論文では、密接に相互作用し、力を交換する人間同士のモーション系列の模倣をマルチエージェント強化学習問題として定式化します。我々は、支援者(アシスタント)エージェントと被支援者エージェントのパートナー意識を持つポリシーを、物理シミュレータ上で共同訓練して、支援モーション参照を追従させます。この問題を扱いやすくするために、単一の人間のモーション追跡コントローラからの事前知識を転移させるパートナー方針初期化スキームを導入し、探索を大幅に改善します。さらに、動的参照再ターゲティングと接触促進報酬を提案し、補助者の参照モーションを被支援者のリアルタイムの姿勢に適用させ、物理的に意味のあるサポートを促します。我々は、AssistMimicが確立されたベンチマーク上で支援的な相互作用モーションを成功裡に追従できる初の方法であることを示し、物理的に基づく現実的な社会性を持つヒューマノイド制御のためのマルチエージェントRL定式化の利点を示しています。