実行状態モニタリングを備えた言語誘導型把持のための物理的エージェンティック・ループ

arXiv cs.RO / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、言語誘導型のロボット把持を、単発の行動提案ではなく、明示的で根拠づけられた実行状態の上で動作する有界(bounded)な「物理的エージェンティック・ループ」として扱うことを提案する。
  • 把持・リフトの操作プリミティブを未改変のまま包む監視ラッパー(「Watchdog」)を導入し、接触を意識した融合と時間的安定化により、ノイズを含む把持器(グリッパ)のテレメトリを離散的な結果ラベルへ変換する。
  • このループは、監視された結果イベント(および任意で把持後の意味検証)を、決定論的な有界ポリシーに入力し、タスクを完了させる、回復を伴って再試行する、あるいは明確化のためにユーザへエスカレーションすることを可能にし、有限な終了(finite termination)を保証する。
  • 携帯型マニピュレータでeye-in-handのD405カメラを用いた実験により、視覚的曖昧さ、注意をそらす要素、人工的に誘発した失敗の状況下でも、オープンループの把持実行より高い頑健性と解釈可能性が得られ、追加オーバーヘッドは最小限であることが示される。

Abstract

言語指示に従うロボット操作システムは、多くの場合、把持のプリミティブをかなり単発的に実行します。すなわち、モデルがある行動を提案し、ロボットがそれを実行する一方で、空の把持、滑り、停止(スタール)、タイムアウト、あるいは意味的に誤った把持といった失敗は、構造化された形では意思決定層に表出されません。デジタルツールを使うエージェントにおけるエージェント的ループに着想を得て、我々は言語に導かれた把持を、根拠のある実行状態の上で動作する、有界な身体的エージェントとして再定式化します。ここでは、身体的アクションによって明示的なツール状態ストリームが露わになります。我々は、修正されていない学習済みの操作プリミティブ(把持して持ち上げる)を、(i) イベントベースのインターフェースと (ii) 実行監視レイヤーである Watchdog で包み込む物理エージェント的ループを提案します。Watchdog は、接触を意識した融合と時間的安定化によって、ノイズの多いグリッパーテレメトリから離散的な結果ラベルへ変換します。これらの結果イベントは、オプションとして把持後の意味論的検証と組み合わされ、有限の終了を保証する決定論的な有界ポリシーによって消費されます。このポリシーは、最終化、再試行、またはユーザーに対する明確化のためのエスカレーションを行います。手法で得られたループを、有手カメラ(in-hand)の D405 を備えたモバイルマニピュレータで検証し、視覚的曖昧さ、紛らわしい対象(ディストラクタ)、および誘発した実行失敗を含む代表的なシナリオを評価します。結果は、明示的な実行状態の監視と有界なリカバリが、オープンループ実行よりも頑健で解釈可能な振る舞いを可能にしつつ、最小限のアーキテクチャ的オーバーヘッドしか追加しないことを示しています。ソースコードおよびデモは、こちらのプロジェクトページを参照してください: https://wenzewwz123.github.io/Agentic-Loop/