接触が豊富なロボット強化学習のための自己教師ありマルチセンソリ予備学習

arXiv cs.RO / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、オンライン相互作用がわずか6,000回であっても強力な実機ロボット性能を報告しており、MSDPが複雑なマルチセンソリ・ロボット制御に必要なデータ量を削減できることを示唆している。

要旨：効果的な接触を伴うリッチな操作には、ロボットが視覚、力、固有受容（proprioception）を相乗的に活用することが必要である。しかし強化学習エージェントは、特に感覚ノイズや動的な変化が存在するようなマルチセンソリ設定では学習が困難である。そこで本研究では、タスク指向の方策学習に適した、表現力のあるマルチセンソリ表現を学習するための新しい枠組みであるMultiSensory Dynamic Pretraining（MSDP）を提案する。MSDPはマスク付き自己符号化（masked autoencoding）に基づき、トランスフォーマー型エンコーダを、複数の感覚（マルチセンソリ）観測をセンサ埋め込みの一部のみから再構成することで学習する。これにより、クロスモーダル予測とセンサ融合が実現される。下流の方策学習のために、我々は新しい非対称（asymmetric）アーキテクチャを導入する。このアーキテクチャでは、クロスアテンション機構によって批評家（critic）が凍結された埋め込みから動的でタスクに固有な特徴を抽出できる一方、俳優（actor）は安定したプール表現を受け取り、その表現が行動を導くようにする。我々の手法は、センサノイズや対象物ダイナミクスの変化を含む多様な攪乱下で、学習の高速化と堅牢な性能を示す。シミュレーションおよび実世界における、接触を伴うリッチな複数の困難なロボット操作タスクでの評価により、MSDPの有効性が示される。我々のアプローチは攪乱に対して強い頑健性を示し、オンライン相互作用がわずか6,000回程度で実ロボットにおいて高い成功率を達成し、複雑なマルチセンソリなロボット制御に対して単純でありながら強力な解決策を提供する。Webサイト：https://msdp-pearl.github.io/