実行状態モニタリングを備えた言語誘導型把持のための物理的エージェンティック・ループ
arXiv cs.RO / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、言語誘導型のロボット把持を、単発の行動提案ではなく、明示的で根拠づけられた実行状態の上で動作する有界(bounded)な「物理的エージェンティック・ループ」として扱うことを提案する。
- 把持・リフトの操作プリミティブを未改変のまま包む監視ラッパー(「Watchdog」)を導入し、接触を意識した融合と時間的安定化により、ノイズを含む把持器(グリッパ)のテレメトリを離散的な結果ラベルへ変換する。
- このループは、監視された結果イベント(および任意で把持後の意味検証)を、決定論的な有界ポリシーに入力し、タスクを完了させる、回復を伴って再試行する、あるいは明確化のためにユーザへエスカレーションすることを可能にし、有限な終了(finite termination)を保証する。
- 携帯型マニピュレータでeye-in-handのD405カメラを用いた実験により、視覚的曖昧さ、注意をそらす要素、人工的に誘発した失敗の状況下でも、オープンループの把持実行より高い頑健性と解釈可能性が得られ、追加オーバーヘッドは最小限であることが示される。



