広告

アクティブ・ステレオカメラは、ユミノイドの操作におけるACT模倣学習でマルチセンサ構成を上回る

arXiv cs.RO / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、3本指のハンドを備えたUnitree G1ヒューマノイドに対し、2つの操作タスクで、アクション・チャンク化を行う模倣学習(ACT)のために14種類のセンサ組み合わせをベンチマークする。
  • データが限られた状況では、複数のモダリティを追加すると学習の非効率性により性能が低下しうることを示し、「センサを増やせば自動的に良くなるわけではない」ことを強調している。
  • 最小構成のアクティブ・ステレオカメラ設定は有力な結果を示し、空間的な汎化で87.5%の成功率、構造化された操作タスクで94.4%の成功率を達成する。
  • アクティブ・ステレオ設定に圧力/触覚センサを追加すると、構造化タスクにおいて性能が大きく低下し、67.3%となる。これは信号対雑音比が低いことによるとされる。
  • 著者らは、マスターデータセットに対してセンサをマスキングすることで、感覚の選択がILの結果にどのように影響するかを体系的に評価するオープンソースのUnified Ablation Frameworkを公開する。

広告