視覚・触覚に基づくペグ・イン・ホール組立学習:ペグ・アウト・オブ・ホール分解から学ぶ

arXiv cs.RO / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、逆タスクであるペグ・アウト・オブ・ホール(PooH)分解を利用して、ペグ・イン・ホール(PiH)組立の学習に必要な探索を抑える視覚・触覚ベースのスキル学習フレームワークを提案している。
  • PiHとPooHの双方を、視覚・触覚の観測空間を共有する統一環境上のPOMDPとして定式化し、PooHポリシーをまず学習してから、軌跡を時間反転しアクションをランダム化することでPiH向けのエキスパートデータを生成する。
  • PiHの実行では、視覚センシングがペグと穴のアプローチを導き、触覚計測がペグと穴の位置ずれを補正して接触の安定性を高める。
  • 複数のペグ穴形状に対する実験の結果、単一モダリティ手法に比べて接触力が6.4%低減し、既知物体で87.5%、未知物体で77.1%の平均成功率を達成した。
  • さらに、本手法はPiHをスクラッチから直接RLで学習する手法に対して成功率で18.1%上回り、デモ・コード・データセットも公開されている。

Abstract

ピグ・イン・ホール(PiH)組立は、基本的である一方、ロボット操作としては非常に難しい課題である。強化学習(RL)はこの種のタスクへの取り組みに有望であることが示されているが、広範な探索を必要とする。本論文では、PiHタスクに対する新しい視覚・触覚スキル学習フレームワークを提案する。このフレームワークは、逆タスク、すなわちピグ・アウト・オブ・ホール(PooH)分解を活用し、PiHの学習を促進する。PiHと比べてPooHは、正確な位置合わせを必要とせず、既存の摩擦を乗り越えるだけでよいため、本質的により取り組みやすい。その結果、データ収集がより効率的になる。そこで本研究では、PooHとPiHの双方を、共有された視覚・触覚の観測空間を持つ統一環境上で、部分観測マルコフ決定過程(POMDP)として定式化する。まず、視覚・触覚PooHポリシーを学習する。次に、このポリシーの軌跡(運動学、視覚、触覚の情報を含む)を時間的に逆転させ、行動をランダム化することで、PiHのためのエキスパートデータを生成する。ポリシー学習においては、視覚センシングがピグ・ホール接近を支援し、触覚計測がピグ・ホールの位置ずれを補償する。多様なピグ・ホール形状に対する実験の結果、視覚・触覚ポリシーは、単一モダリティの対応手法より接触力を6.4%低減できることが示された。また、本フレームワークは、見かけのある(seen)対象で平均87.5%、見かけのない(unseen)対象で平均77.1%の成功率を達成し、PiHポリシーをスクラッチから直接学習するRL手法に比べて成功率を18.1%上回った。デモ、コード、およびデータセットは https://sites.google.com/view/pooh2pih で利用可能である。