インピーダンス制御による精密挿入のための軌道編集を用いた力認識型残差DAgger

arXiv cs.RO / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、接触が多い精密挿入における共変量シフトを低減するヒト・イン・ザ・ループ模倣学習フレームワークとして、軌道編集残差データセット集約(TER-DAgger)を提案する。最適化ベースの軌道編集によって残差方策を学習することで、この課題に対処する。
  • TER-DAggerは、ロボットのロールアウトと人間の修正軌道を、滑らかな融合メカニズムによって組み合わせ、実行中に一貫した安定した教師信号を提供することを目指す。
  • さらに、予測されたエンドエフェクタの力と実測された力が一致しない場合にのみ人間の介入を要求する、力認識型の失敗予兆トリガーを導入し、専門家による継続的な監視の必要性を削減する。
  • 学習されたすべての方策は、接触相互作用中のコンプライアントで安全な挙動を維持するために、カーテシアン・インピーダンス制御の枠組みの下で実行される。
  • シミュレーションおよび実環境での挿入タスクにおける実験では、いくつかの挙動クローンおよび修正/再学習のベースラインと比較して、平均成功率が37%以上改善したことが報告されている。

要旨: 接触が豊富な高精度挿入タスクにおいて、模倣学習(IL)は強い可能性を示している。しかし、その実運用上の導入はしばしば、共変量シフト(covariate shift)や、実行中の失敗から回復するための継続的な専門家による監視の必要性によって妨げられる。本論文では、Trajectory Editing Residual Dataset Aggregation(TER-DAgger)を提案する。これは、最適化ベースの軌道編集を通じて残差ポリシーを学習することで共変量シフトを緩和する、スケーラブルで力を考慮したヒューマン・イン・ザ・ループの模倣学習フレームワークである。本手法は、ポリシーのロールアウトと人間による修正軌道を滑らかに融合し、一貫した安定した教師信号を提供する。第二に、予測されたエンドエフェクタの力と計測された力の間に不一致が生じた場合にのみ人間の介入を引き起こす、力を考慮した失敗予兆メカニズムを導入することで、継続的な専門家監視の要件を大幅に削減する。第三に、学習されたすべてのポリシーは、直交(Cartesian)インピーダンス制御の枠組み内で実行されるため、接触が豊富な相互作用中でも順応的で安全な振る舞いが保証される。シミュレーションおよび実世界の高精度挿入タスクの両方における大規模な実験により、TER-DAggerは、振る舞いのクローン、ヒトによる誘導的修正、再学習、微調整のベースラインと比較して平均成功率を37\%超向上させ、共変量シフトの緩和と、接触が豊富な操作におけるスケーラブルな導入を可能にすることを示す。