SARM:長期ロボットマニピュレーションのための段階対応報酬モデリング
arXiv cs.RO / 2026/4/28
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、変形物を含む接触豊富な長期ロボットマニピュレーションで課題となる、デモの品質ばらつきに対処するためのSARM(段階対応・動画ベース報酬モデリング)を提案します。
- SARMは自然言語のサブタスク注釈を用いてタスクの段階と細かな進捗を同時に予測し、デモの長さが異なっても一貫した教師信号を作れるため、フレームインデックス依存のラベリングの脆さを回避します。
- 報酬モデルはデモのばらつきに頑健で、分布外シナリオにも一般化できるとされ、下流のポリシートレーニングが改善されると報告されています。
- さらに、Reward-Aligned Behavior Cloning(RA-BC)として、報酬推定に基づいてデモをフィルタリングし重み付けする手法を導入し、実環境でのロールアウトと人手による検証の両方で基準手法より大幅に良い結果を得たとされています。
- Tシャツの折り畳みにおいて、平らな状態から83%・しわのある状態から67%の成功率を達成した一方、バニラの行動クローンでは8%と0%だったと報告されており、報酬モデリングが長期ロボティクスに有効でスケーラブルかつ注釈効率の高い解決策であることが示唆されます。