Tube Diffusion Policy:接触の多い操作に向けたリアクティブな視覚・触覚ポリシー学習

arXiv cs.RO / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、接触の多い操作において不確実性や外乱に対応するためのリアクティブな視覚・触覚模倣学習フレームワーク「Tube Diffusion Policy(TDP)」を提案する。
  • TDPは拡散ベースの模倣学習と、チューブ型フィードバック制御を組み合わせ、名目上のアクション・チャンク周囲に観測条件付きのフィードバックフローを学習して「アクショントチューブ」を形成し、実行中の高速な修正を可能にする。
  • Push-Tベンチマークに加えて、視覚・触覚の難しい巧緻操作タスク3件で評価した結果、TDPは既存の模倣学習ベースラインを一貫して上回る。
  • 実世界での検証により、接触不確実性や外乱に対するTDPの頑健なリアクティビティが確認され、チューブによる段階的補正がノイズ除去(denoising)ステップ数の削減につながることで、高周波のリアルタイム制御に適していることが示される。
  • 提案手法は、アクション・チャンクングのアプローチが抱える「実行中に予期しない観測へ反応できない」という重要な制約を解消する。

概要: 接触に富む操作は、多くの日常の人間活動の中心であり、特に視覚と触覚のフィードバックを含むマルチモーダル知覚によって、接触の不確実性や外部からの擾乱に対して継続的に適応することが求められます。模倣学習は複雑な操作行動の獲得に強い可能性を示しているものの、既存の多くの手法はアクションのチャンク化に依存しており、実行中に想定外の観測へ反応する能力を本質的に制限しています。この制限は、物理的不確実性と高頻度の触覚フィードバックが要求される接触に富むシナリオで、とりわけ重大になります。そこで本研究では、拡散ベースの模倣学習とチューブ(管)ベースのフィードバック制御を橋渡しする、新しい反応型の視覚・触覚ポリシー学習フレームワークであるTube Diffusion Policy(TDP)を提案します。生成モデルの表現力を活用することで、TDPは名目上のアクションチャンクの周りに、観測条件付きのフィードバック・フローを学習し、これにより「アクション・チューブ」を形成します。これにより、実行中に高速かつ適応的な反応が可能になります。広く利用されているPush-Tベンチマークと、さらに3つの困難な視覚・触覚の巧緻操作タスクにおいてTDPを評価します。すべてのベンチマークで、TDPは一貫して最先端の模倣学習ベースラインを上回ります。さらに、2つの実世界実験により、接触の不確実性および外部からの擾乱下での頑健な反応性が検証されます。加えて、アクション・チューブによって可能になる段階的な補正メカニズムは、必要なデノイズ(ノイズ除去)ステップ数を大幅に削減し、TDPを接触に富む操作におけるリアルタイムかつ高頻度のフィードバック制御に適したものにしています。