事前知識に基づいて構築する:視覚―言語―誘導型のニューロ記号的模倣学習によるデータ効率の高い実環境ロボット操作

arXiv cs.RO / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、最大で1〜30件のアノテーションなしの熟練スキルデモンストレーションから動作できる、自動化されたニューロ記号的模倣学習パイプラインを提案することで、データ効率の高い長期(長い時間幅)ロボット操作に取り組む。
  • デモンストレーションをスキルに分割し、その後、視覚言語モデル(VLM)を用いてスキルを分類するとともに同等な高レベル状態を発見し、これにより自動的に構築される状態遷移グラフを形成する。
  • Answer Set Programming(ASP)ソルバが、このグラフを合成PDDL計画ドメインへ変換し、さらに各スキル方策についてタスクに最小限かつ関連する観測/行動空間を切り出すために用いる。
  • エンドツーエンドの生のアクチュエータ模倣とは異なり、本手法は制御参照レベルで学習することで、より滑らかな目標を生成し、学習のノイズとなるシグナルを低減する。
  • 本アプローチは、統計的に厳密な試験により産業用フォークリフトで検証し、Kinova Gen3アームにおいてプラットフォームを跨いだ一般化も示す。これにより、スケーラビリティ、専門家不要のセットアップ、解釈可能性が強調される。