強化学習とインコンテキストのビジョン・言語モデルによる階層型DLOルーティング

arXiv cs.RO / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、変形可能な線状物体(例:ケーブルやロープ)の長期ホライズンなルーティングに対して、長期計画と信頼性の高いマルチスキル実行を必要とする状況を対象にした、完全自律型の階層的フレームワークを提示する。
  • 言語で指定されたルーティング目標を、インコンテキスト推論のためのビジョン・言語モデルを用いて高レベルの計画へと変換し、その後、強化学習によって低レベルの操作スキルを実行する。
  • 長期ホライズンにわたる頑健性を扱うため、この手法には、誤りが起きた際にDLOを挿入可能な状態へ再配向(リオリエント)する失敗回復メカニズムが含まれる。
  • 本アプローチは、多様なシーンやコマンドスタイル(暗黙的な言語や空間記述を含む)にわたって一般化できることが報告され、長期ホライズンのルーティング課題において総合成功率92%を達成する。
  • 本研究にはプロジェクトページが付属し、arXivのアップデートとしても説明されており、変形可能物体のロボット操作に関する応用研究として位置づけられている。

Abstract

ケーブルやロープのような変形可能な直線物体(DLO)に対する長期ホライゾンの経路計画タスクは、産業の組立ラインや日常生活で一般的である。これらのタスクが特に難しいのは、ロボットが長期的な計画立案と信頼できるスキル実行を通じてDLOを操作する必要があるためである。そのようなタスクを成功裏に完了するには、非線形ダイナミクスへの適応、抽象的な経路目標の分解、複数のスキルから構成される多段階の計画の生成など、実行中の正確な高レベル推論がすべて求められる。本論文では、難しいDLO経路計画タスクを解くための完全自律型の階層的フレームワークを提案する。言語で表現された、暗黙的または明示的な経路目標に対して、我々のフレームワークは、文脈内での高レベル推論のために視覚言語モデル~(VLMs)を活用し、実行可能な計画を合成する。合成された計画は、その後、強化学習によって訓練された低レベルスキルによって実行される。長期ホライゾンにおける頑健性を向上させるために、さらに、DLOを挿入可能な状態へと再指向する失敗回復メカニズムも導入する。我々のアプローチは、物体の属性、空間記述、暗黙的な言語コマンド、そして\myred{拡張5-clip設定}を含む多様なシーンへと一般化できる。長期ホライゾンの経路計画シナリオにおいて、全体の成功率92\%を達成する。プロジェクトページはこちら: https://icra2026-dloroute.github.io/DLORoute/