階層型時空間アクショントークナイザ：ロボティクスにおけるインコンテキスト模倣学習

arXiv cs.RO / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、ロボティクスにおけるインコンテキスト模倣学習のための階層型時空間アクショントークナイザを提案し、実演データからの行動表現を改善することを目指しています。
2段階のベクトル量子化を用い、まず下位レベルで行動をきめ細かなサブクラスタに割り当て、次に上位レベルでそれらをより大きなクラスタへまとめます。
階層構造は階層なしの手法よりも性能が高く、主に行動の再構成によって空間情報を効果的に活用しています。
拡張手法HiST-ATでは、複数レベルのクラスタリングと同時に、行動と関連するタイムスタンプの再構成を行うことで、空間と時間の両方の手がかりを取り込みます。
複数のシミュレーションおよび実ロボットのマニピュレーション課題で評価した結果、インコンテキスト模倣学習において新たな最先端性能を達成したと報告されています。

概要: 本稿では、コンテキスト内模倣学習のための新しい階層的時空間アクショントークナイザを提案します。まず、2つの連続したレベルのベクトル量子化から成る階層的アプローチを提案します。具体的には、低いレベルでは入力アクションをきめ細かなサブクラスターに割り当て、より高いレベルではきめ細かなサブクラスターをさらにクラスターへと対応付けます。提案する階層的アプローチは、空間情報を主に活用して入力アクションを再構成することで、非階層的な対応手法よりも優れた性能を示します。さらに、空間と時間の手がかりの両方を利用することでアプローチを拡張し、すなわちHiST-AT（階層的時空間アクショントークナイザ）を構築します。具体的には、階層的時空間アプローチは多層のクラスタリングを実行しつつ、入力アクションとそれに対応するタイムスタンプを同時に復元します。最後に、複数のシミュレーションおよび実ロボットによる操作ベンチマークに対する大規模な評価により、提案手法がコンテキスト内模倣学習において新たな最先端の性能を達成することを示します。