相位で変化するニューラルポテンシャル関数によるリアクティブ運動生成

arXiv cs.RO / 2026/4/30

📰 ニュースModels & Research

要点

  • 本論文は、限られたデモからでも安定した運動生成を目指す学習(LfD)フレームワークとして、相位で変化するニューラルポテンシャル関数(PNPF)を提案する。
  • PNPFは、状態の推移から直接推定した相位変数を用いて学習したポテンシャル関数を条件付けし、軌道の状態再訪や交差をより適切に扱えるようにする。
  • 先行手法の弱点を補う形で、速度による分岐(方向の曖昧性解消)を行う第二次オーダーモデルは交差近傍で外乱に敏感になり得る一方、オープンループの相位ベース手法は摂動後の回復が難しいと指摘される。
  • 実験では、PNPFが到達点間、周期運動、さらに6次元全身運動といった幅広いタスクへ良く一般化し、交差軌道で既存ベースラインより優れた性能を示したとされる。
  • さらに、外部外乱下でのリアルタイムなロボット操作で堅牢に動作することが報告され、シミュレーション外でも実用性が示唆される。

要旨: 学習(LfD: Learning-from-Demonstration)に対する動的システム(DS)手法は、わずかなデモンストレーションから安定で連続的なポリシーを提供します。一次の動的システム(DS)は、各状態に対して一意な速度が定義されている限り、多くの点対点および周期タスクに有効です。交差を含むタスク(例:「8」を描く)では、二次ダイナミクスや位相変数といった拡張がしばしば用いられます。しかし、速度を取り入れることで二次モデルは交差近傍の擾乱に対して敏感になります。これは、速度が運動方向の曖昧さを解くために用いられるためです。さらに、この曖昧さの解消は、ほぼ同一の位置—速度ペアが異なるその後の運動に対応する場合には失敗し得ます。一方で、位相に基づく手法は、オープンループの時間または位相変数に依存しており、擾乱の後に回復する能力が制限されます。そこで本研究では、Phase-varying Neural Potential Functions(PNPF)を導入します。これは、オープンループの時間入力ではなく、状態の進行から直接推定される位相変数に基づいてポテンシャル関数を条件付けする、LfDの枠組みです。この位相変数によりシステムは状態の再訪に対応でき、学習されたポテンシャル関数が反応的で安定な制御のための局所的なベクトル場を生成します。PNPFは、点対点、周期、および完全な6D運動タスクに対して効果的に汎化し、交差を含む軌道において既存のベースラインを上回り、外部擾乱下での実時間ロボット操作において頑健な性能を示します。