BridgeACT:人のデモンストレーションからロボット動作へ—統一ツール・ターゲットのアフォーダンスによる架け橋

arXiv cs.RO / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • BridgeACTは、人の動画からロボットの操作を学習するための新しいアフォーダンス駆動フレームワークであり、ロボット側のデモンストレーションデータを不要にしています。
  • 人のデモと実行可能なロボット行動をつなぐために、身体(エンボディメント)に依存しない中間表現としてアフォーダンスをモデル化します。
  • 操作を「どこで把持するか」と「どう動かすか」の2つに分解し、まず現場のシーンからタスクに関連するアフォーダンス領域を特定し、その後人のデモンストレーションに基づいてタスク条件付きの3Dモーションアフォーダンスを予測します。
  • 学習したアフォーダンスは把持モジュールと軽量なクローズドループ運動制御器によってロボット動作へ対応付けられ、実ロボットへの直接デプロイを可能にします。
  • 実世界の操作タスクでの実験では、従来手法より高い性能を示し、未知の物体・シーン・視点への汎化性能も良好です。

Abstract

人の動画からロボットの操作を学習することは、人間のデモンストレーションの規模と多様性によって魅力的ですが、それらのデモンストレーションを実行可能なロボット行動へと移し替えることは依然として困難です。従来研究では、下流の適応のためにロボットデータに依存するか、あるいは知覚レベルにとどまってしまい現実世界での実行を直接支援しないアフォーダンス表現を学習するかのいずれかでした。本研究では、ロボットのデモンストレーションデータを一切必要とせず、人の動画からロボット操作を直接学習するアフォーダンス駆動型フレームワークであるBridgeACTを提案します。本質的なアイデアは、アフォーダンスを、ヒトのデモンストレーションとロボットの行動をつなぐ、身体性非依存の中間表現としてモデル化することです。BridgeACTは、操作を2つの補完的な問題に分解します:どこを把持するか、そしてどう動かすか。そこでBridgeACTはまず、現在のシーンにおいてタスクに関連するアフォーダンス領域を基礎付け(grounding)し、続いて人間のデモンストレーションからタスク条件付きの3Dモーション・アフォーダンスを予測します。得られたアフォーダンスは、把持モジュールと軽量なクローズドループ運動コントローラを通じてロボットの行動へとマッピングされ、実ロボットへの直接的な導入を可能にします。さらに、複雑な操作タスクをアフォーダンス操作の合成として表現することで、多様なタスクや物体間相互作用に対して統一的に扱うことができます。実世界の操作タスクに関する実験では、BridgeACTが従来のベースラインを上回り、未見の物体、シーン、視点へと一般化できることが示されています。