ロボティクスによる精密挿入のためのポーズ誘導模倣学習の探究

arXiv cs.RO / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、実環境で精密ロボット挿入が難しい理由を、接触が多いダイナミクス、きわめて小さいクリアランス、そしてデモンストレーションデータの不足を、既存の視覚運動模倣学習手法における主要なボトルネックとして挙げて説明する。
コンパクトで対象中心の相対SE(3)ポーズを用いるポーズ誘導模倣学習を提案し、挿入のための行動として、拡散ポリシーにより将来の相対ポーズ軌跡を予測する。
ポーズ推定ノイズへの対処として、ポーズ特徴に目標条件付きRGBDエンコーディングを追加し、ポーズ推定が信頼できない場合にRGBDの手がかりで補える「ポーズ誘導残差付きガーテッド・フュージョン」モジュールを用いる。
実ロボットによる6つの精密挿入タスクで実験を行い、各タスクあたり7〜10件のデモンストレーションのみで強い性能が得られることを示す。さらに、クリアランス0.01 mmまで低い条件での動作成功を含み、ベースラインよりもデータ効率と汎化性能が優れている。
著者らは、提供されたGitHubリンクからコードを公開する予定であると報告しており、再現性の確保と、ポーズおよび拡散ベースの挿入ポリシーに関するさらなる研究を支援する。

要旨: 模倣学習はロボットによるマニピュレーションにとって有望ですが、現実世界での
\emph{正確な挿入} は、接触が多いダイナミクス、きわめて狭いクリアランス、そして限られたデモンストレーションのために依然として困難です。多くの既存の視覚運動ポリシーは、高次元のRGB/点群観測に依存していますが、これはデータ効率が悪く、姿勢の変化に対して十分に汎化できないことがあります。本論文では、対象物のポーズを $\mathrm{SE}(3)$ におけるコンパクトな対象物中心の観測として用いることで、正確な挿入タスクに対する姿勢誘導型模倣学習を研究します。まず、正確な挿入のための拡散ポリシーを提案します。このポリシーは、始点となる物体の
\emph{相対的な} $\mathrm{SE}(3)$ ポーズを、目標となる物体に対するものとして観測し、その行動として将来の相対ポーズ軌道を予測します。次に、姿勢推定ノイズに対する頑健性を高めるために、姿勢誘導ポリシーをRGBD手がかりで拡張します。具体的には、現在の観測と目標の観測との差異を捉えるための、目標条件付きRGBDエンコーダを導入します。さらに、姿勢誘導の残差付きゲート付き融合モジュールを提案します。ここでは、姿勢特徴が主たる制御信号を提供し、姿勢推定が信頼できない場合には、RGBD特徴が適応的に補償します。提案手法を、6つの実ロボットによる正確な挿入タスクで評価し、各タスクあたり $7$ -- $10$ 件のデモンストレーションのみで高い性能を達成します。実験設定では、提案ポリシーはクリアランスが $0.01$ ~mm までのタスクに成功し、既存のベースラインに比べてデータ効率と汎化性が向上することを示します。コードは https://github.com/sunhan1997/PoseInsert で公開します。

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

成長を生み出すCRM開発

Dev.to

カーパシーのオートリサーチ：エージェント型コーディングスキルの向上

Dev.to

API vs Local LLM、まだ感覚で選んでないか？

Qiita

実際に機能するAIプロンプトの書き方

Dev.to

ロボティクスによる精密挿入のためのポーズ誘導模倣学習の探究

要点

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

成長を生み出すCRM開発

カーパシーのオートリサーチ：エージェント型コーディングスキルの向上

API vs Local LLM、まだ感覚で選んでないか？

実際に機能するAIプロンプトの書き方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer