広告

データ効率の高いロボット模倣学習のためのマルチカメラ視点スケーリング

arXiv cs.RO / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ロボット模倣学習における重要なボトルネックを扱っている。すなわち、エキスパートのデモンストレーションに多様性が欠けると、ポリシーの汎化性能が低下する一方で、環境をまたいだ多様な軌跡を収集することは費用がかかり難しい。
  • 人手の追加を必要とせず、各エキスパート軌跡に対してマルチカメラの視点をスケーリングすることで学習の多様性を高める、データ効率の高い枠組みを提案する。これにより、擬似デモンストレーションを実質的に生成する。
  • 著者らは、異なるアクション空間の選択が視点スケーリングとどのように相互作用するかを調査し、カメラ空間表現やより豊かなマルチビューの多様性によって、視覚特徴の不変性をさらに向上できることを示す。
  • 複数カメラで学習したポリシーを、単一視点入力でも効果的に運用できるようにする、マルチビューのアクション統合手法を導入する。
  • シミュレーションと実環境での操作タスクの両方で、単一視点の模倣学習ベースラインに比べて、データ効率と汎化の面で大きな改善が得られることを実験により示す。さらに、追加されるハードウェアの複雑さは最小限である。

要旨: ロボットによる操作における模倣学習ポリシーの一般化能力は、専門家デモンストレーションの多様性によって根本的に制約されます。一方で、さまざまな環境からデモンストレーションを収集することは、実際にはコストが高く困難です。本論文では、デモンストレーション収集時にカメラ視点をスケールすることで、追加の人手を要さずに内在するシーンの多様性を活用する、実用的な枠組みを提案します。より多くの軌跡を獲得する代わりに、各専門家軌跡から擬似デモンストレーションを生成するために、複数の同期されたカメラ視点を用います。これにより学習分布が拡充され、視覚表現における視点不変性が向上します。さらに、異なる行動空間が視点スケーリングとどのように相互作用するかを分析し、カメラ空間表現が多様性を一層高めることを示します。加えて、マルチビューの行動集約手法を導入し、単一視点ポリシーが運用時に複数のカメラを活用できるようにします。シミュレーションおよび実環境での操作タスクにおける大規模な実験により、単一視点のベースラインと比べてデータ効率と一般化の両面で大きな改善が示されます。本結果は、カメラ視点のスケーリングが、模倣学習に対して最小限の追加ハードウェア構成で済み、既存の模倣学習アルゴリズムにシームレスに統合できる、実用的でスケーラブルな解決策であることを示唆しています。プロジェクトのウェブサイトは https://yichen928.github.io/robot_multiview です。

広告