ロボットマニピュレーション方策におけるアクション空間設計を解き明かす

arXiv cs.RO / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、アクション空間の設計が模倣に基づくロボット操作方策学習に大きく影響し、最適化の地形を形作ることで学習挙動にも影響を与えると主張しています。
  • 著者らは、時間軸と空間軸に沿ってアクション設計の選択肢を分析する大規模な実証研究を示し、それらが方策の学習容易性と制御安定性にどう作用するかを明確化します。
  • 双腕ロボットでの1万3,000回超の実世界ロールアウトと、4つのシナリオで500モデル超を評価することで、表現方法のトレードオフを定量化しています。
  • 結果として、方策がデルタ・アクションを一貫して予測するよう設計すると性能が向上し、ジョイント空間とタスク空間の表現はそれぞれ制御安定性と汎化性能に対して補完的に働くことが示唆されます。
  • 本研究は、場当たり的またはレガシーなアクション空間の設計から脱し、ロボット方策構築のためのより体系的な“設計哲学”を提示することを目的としています。

概要: 行動空間の仕様は、模倣に基づくロボティクスの操作ポリシー学習において極めて重要な役割を果たし、ポリシー学習の最適化風景を本質的に形作ります。近年の進展は学習データとモデル容量のスケーリングに大きく注力してきましたが、行動空間の選択は依然として場当たり的なヒューリスティックや既存の設計に導かれており、ロボティクスのポリシー設計思想に関する理解が曖昧なままです。この曖昧さに対処するために、私たちは大規模かつ体系的な経験的研究を実施し、行動空間がロボティクスのポリシー学習に対して重要かつ複雑な影響を持つことを確認しました。私たちは、時間軸および空間軸に沿って行動設計空間を分解し、これらの選択がポリシーの学習可能性と制御の安定性の両方をどのように支配するかを、構造化された形で分析できるようにしました。二腕(バイマニアル)ロボットでの実環境ロールアウト13,000回以上と、4つのシナリオにわたる500以上の学習済みモデルでの評価に基づき、絶対表現とデルタ表現、ならびに関節空間とタスク空間のパラメータ化の間のトレードオフを検討します。大規模な結果は、デルタ動作を一貫して予測するようにポリシーを適切に設計することが性能を向上させることを示唆しています。一方で、関節空間表現とタスク空間表現はそれぞれ補完的な強みを提供し、前者は制御の安定性を、後者は汎化を好む傾向があります。