要旨:最近の視覚と言語モデル(VLMs)の進歩により、ビデオを指示とするロボットプログラミングが可能となり、エージェントがビデオデモンストレーションを解釈し、実行可能な制御コードを生成できるようになった。私たちは、ビデオ指示付きロボットプログラミングを、デモンストレーションと展開との間の知覚的・物理的差異が手続き的な不一致を誘発する、クロスドメイン適応問題として定式化する。しかし、現行のVLMには、そのようなドメインシフト下で因果依存関係を再定義し、タスク適合挙動を達成するために必要な手続き理解が不足している。私たちはNeSyCRを紹介する。ニューロシンボリックな反事実推論フレームワークで、タスク手順の検証可能な適応を可能にし、コード方針の信頼性のある合成を提供する。NeSyCRは、ビデオデモンストレーションを、基礎となるタスク手順を捉える象徴的軌跡へ抽象化する。展開観察を与えられると、クロスドメインの不適合性を明らかにする反事実状態を導出する。検証可能なチェックを備えた象徴的状態空間を探索することにより、NeSyCRはデモンストレーションされた手順と整合性を回復させる手順の改訂を提案する。NeSyCRは、最も強力なベースラインStatlerに対してタスク成功率を31.14%改善し、シミュレートされたタスクと実世界の操作タスクの両方で堅牢なクロスドメイン適応を示している。
ニューロシンボリック反事実推論によるクロスドメインのデモからコードへの変換
arXiv cs.AI / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- NeSyCRは、ビデオ指示付きロボットプログラミングにおけるクロスドメイン適応のためのニューロシンボリック反事実推論フレームワークを導入する。
- 本手法は、ビデオデモンストレーションを象徴的な軌道に抽象化し、デプロイ時の観測を用いてクロスドメインの不適合を明らかにする反事実状態を導出する。
- 検証可能なチェックを備えた象徴的状態空間を探索することにより、NeSyCRはデモンストレーション手順と互換性を回復させる手順の改訂案を提案する。
- NeSyCRは、シミュレーションと実世界の両方の操作タスクにおいて、最も強力なベースラインStatlerを上回り、タスク成功率を31.14%改善した。




