実行状態モニタリングを備えた言語誘導型把持のための物理的エージェンティック・ループ

arXiv cs.RO / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、言語誘導型のロボット把持を、単発の行動提案ではなく、明示的で根拠づけられた実行状態の上で動作する有界（bounded）な「物理的エージェンティック・ループ」として扱うことを提案する。
把持・リフトの操作プリミティブを未改変のまま包む監視ラッパー（「Watchdog」）を導入し、接触を意識した融合と時間的安定化により、ノイズを含む把持器（グリッパ）のテレメトリを離散的な結果ラベルへ変換する。
このループは、監視された結果イベント（および任意で把持後の意味検証）を、決定論的な有界ポリシーに入力し、タスクを完了させる、回復を伴って再試行する、あるいは明確化のためにユーザへエスカレーションすることを可能にし、有限な終了（finite termination）を保証する。
携帯型マニピュレータでeye-in-handのD405カメラを用いた実験により、視覚的曖昧さ、注意をそらす要素、人工的に誘発した失敗の状況下でも、オープンループの把持実行より高い頑健性と解釈可能性が得られ、追加オーバーヘッドは最小限であることが示される。

Abstract

言語指示に従うロボット操作システムは、多くの場合、把持のプリミティブをかなり単発的に実行します。すなわち、モデルがある行動を提案し、ロボットがそれを実行する一方で、空の把持、滑り、停止（スタール）、タイムアウト、あるいは意味的に誤った把持といった失敗は、構造化された形では意思決定層に表出されません。デジタルツールを使うエージェントにおけるエージェント的ループに着想を得て、我々は言語に導かれた把持を、根拠のある実行状態の上で動作する、有界な身体的エージェントとして再定式化します。ここでは、身体的アクションによって明示的なツール状態ストリームが露わになります。我々は、修正されていない学習済みの操作プリミティブ（把持して持ち上げる）を、(i) イベントベースのインターフェースと (ii) 実行監視レイヤーである Watchdog で包み込む物理エージェント的ループを提案します。Watchdog は、接触を意識した融合と時間的安定化によって、ノイズの多いグリッパーテレメトリから離散的な結果ラベルへ変換します。これらの結果イベントは、オプションとして把持後の意味論的検証と組み合わされ、有限の終了を保証する決定論的な有界ポリシーによって消費されます。このポリシーは、最終化、再試行、またはユーザーに対する明確化のためのエスカレーションを行います。手法で得られたループを、有手カメラ（in-hand）の D405 を備えたモバイルマニピュレータで検証し、視覚的曖昧さ、紛らわしい対象（ディストラクタ）、および誘発した実行失敗を含む代表的なシナリオを評価します。結果は、明示的な実行状態の監視と有界なリカバリが、オープンループ実行よりも頑健で解釈可能な振る舞いを可能にしつつ、最小限のアーキテクチャ的オーバーヘッドしか追加しないことを示しています。ソースコードおよびデモは、こちらのプロジェクトページを参照してください： https://wenzewwz123.github.io/Agentic-Loop/

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

ITmedia AI+

2026年のLLM API料金：主要モデルをすべて1つの表にまとめました

Dev.to

GTX 1660でAI動画を生成してみた。実際に必要なものはこれ。

Dev.to

実行状態モニタリングを備えた言語誘導型把持のための物理的エージェンティック・ループ

要点

Abstract

関連記事

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

2026年のLLM API料金：主要モデルをすべて1つの表にまとめました

GTX 1660でAI動画を生成してみた。実際に必要なものはこれ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Claudeを“コスパ良く”利用可能に 性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

2026年のLLM API料金：主要モデルをすべて1つの表にまとめました

GTX 1660でAI動画を生成してみた。実際に必要なものはこれ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール