ESPADA：模倣学習のためのセマンティクス認識デモデータのダウンサンプリングによる実行速度向上

arXiv cs.RO / 2026/4/28

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、行動クローン（behavior cloning）に基づくビジュオモータ方策について、人のデモに引きずられた過度に慎重なタイミングを保ちつつ精度を落とさないことを目的に、デモデータをセマンティクスおよび空間的に意識してダウンサンプリングする手法ESPADAを提案します。
ESPADAは、VLM-LLMパイプラインと3Dのグリッパー—物体関係を用いてデモをセグメント化し、重要でない区間では強めにダウンサンプリングしつつ、精度が必要な重要区間は保持します。
追加データ、アーキテクチャ変更、再学習を不要とし、1エピソード分の注釈からデータセット全体へは、ダイナミクスのみの特徴を使ったDTW（Dynamic Time Warping）でセグメントラベルを伝播させてスケールします。
シミュレーションと実世界の両方で、ACTおよびDPのベースラインを用いた実験により、約2倍の速度向上を達成しつつ成功率を維持し、人間デモと効率的なロボット制御のギャップを縮めることを示します。

Abstract

行動クローン（behavior-cloning）に基づくビジュオモータ方策は、精密な操作を可能にする一方で、しばしば人間のデモンストレーションに由来する遅く慎重なテンポをそのまま引き継いでしまい、実運用での展開を制限します。しかし、加速手法に関する従来研究は主に統計的またはヒューリスティックな手がかりに依存しており、タスクの意味論を無視しているため、多様な操作設定にまたがると失敗することがあります。そこで本研究では、ESPADA（Semantic and Spatially aware framework）を提示します。これは、3Dのグリッパー—対象物関係を用いたVLM-LLMパイプラインによりデモンストレーションをセグメント化し、精密さが重要な局面は保持したまま、非重要なセグメントにのみ攻めたダウンサンプリングを可能にする枠組みです。追加データの要件、アーキテクチャの改変、あるいは再学習（リトレーニング）は一切必要ありません。単一の注釈付きエピソードからフルデータセットへとスケールさせるために、ESPADAはダイナミクスのみの特徴に対してDynamic Time Warping（DTW）を行い、セグメントのラベルを伝播させます。ACTおよびDPのベースラインを用いたシミュレーションと実環境の双方の実験において、ESPADAは成功率を維持しつつ、約2倍の速度向上を達成し、人間のデモンストレーションと効率的なロボット制御のギャップを縮めます。