事前知識に基づいて構築する：視覚―言語―誘導型のニューロ記号的模倣学習によるデータ効率の高い実環境ロボット操作

arXiv cs.RO / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、最大で1〜30件のアノテーションなしの熟練スキルデモンストレーションから動作できる、自動化されたニューロ記号的模倣学習パイプラインを提案することで、データ効率の高い長期（長い時間幅）ロボット操作に取り組む。
デモンストレーションをスキルに分割し、その後、視覚言語モデル（VLM）を用いてスキルを分類するとともに同等な高レベル状態を発見し、これにより自動的に構築される状態遷移グラフを形成する。
Answer Set Programming（ASP）ソルバが、このグラフを合成PDDL計画ドメインへ変換し、さらに各スキル方策についてタスクに最小限かつ関連する観測／行動空間を切り出すために用いる。
エンドツーエンドの生のアクチュエータ模倣とは異なり、本手法は制御参照レベルで学習することで、より滑らかな目標を生成し、学習のノイズとなるシグナルを低減する。
本アプローチは、統計的に厳密な試験により産業用フォークリフトで検証し、Kinova Gen3アームにおいてプラットフォームを跨いだ一般化も示す。これにより、スケーラビリティ、専門家不要のセットアップ、解釈可能性が強調される。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH