SARM:長期ロボットマニピュレーションのための段階対応報酬モデリング

arXiv cs.RO / 2026/4/28

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、変形物を含む接触豊富な長期ロボットマニピュレーションで課題となる、デモの品質ばらつきに対処するためのSARM(段階対応・動画ベース報酬モデリング)を提案します。
  • SARMは自然言語のサブタスク注釈を用いてタスクの段階と細かな進捗を同時に予測し、デモの長さが異なっても一貫した教師信号を作れるため、フレームインデックス依存のラベリングの脆さを回避します。
  • 報酬モデルはデモのばらつきに頑健で、分布外シナリオにも一般化できるとされ、下流のポリシートレーニングが改善されると報告されています。
  • さらに、Reward-Aligned Behavior Cloning(RA-BC)として、報酬推定に基づいてデモをフィルタリングし重み付けする手法を導入し、実環境でのロールアウトと人手による検証の両方で基準手法より大幅に良い結果を得たとされています。
  • Tシャツの折り畳みにおいて、平らな状態から83%・しわのある状態から67%の成功率を達成した一方、バニラの行動クローンでは8%と0%だったと報告されており、報酬モデリングが長期ロボティクスに有効でスケーラブルかつ注釈効率の高い解決策であることが示唆されます。

Abstract

大規模ロボット学習は複雑なマニピュレーション課題で進展を遂げているものの、とりわけ変形可能物体を扱うような、長いホライゾンかつ接触が豊富な問題は、デモンストレーションの品質が一貫しないことに起因して依然として難しいままです。私たちは、タスクの進行段階ときめ細かな進捗をともに予測する、段階を意識した動画ベースの報酬モデリングの枠組みを提案します。可変長のデモンストレーションに対して一貫したラベルを導くために、自然言語によるサブタスク注釈を用います。これにより、フレームインデックスに基づくラベリングの脆さを回避し、Tシャツのたたみ込みのような課題でも安定した教師信号を提供できます。私たちの報酬モデルはデモンストレーションのばらつきに対して頑健であり、分布外の状況へも一般化でき、下流の方策学習を改善します。さらにこれを基に、報酬整合型行動模倣(Reward-Aligned Behavior Cloning; RA-BC)を導入します。これは、報酬推定に基づいてデモンストレーションをフィルタリングし、重み付けし直します。実験の結果、提案手法は実環境でのロールアウトと人手による検証の両方において、ベースラインを大幅に上回ることが示されました。Tシャツのたたみ込みでは、平らな状態から83%の成功率、しわの寄った状態から67%の成功率を達成しました。これは、バニラのBCでの8%および0%と比べて大きく改善しています。全体として、私たちの結果は、報酬モデリングが長いホライゾンのロボットによるマニピュレーションに対する、スケーラブルで注釈効率の高い解決策であることを示しています。プロジェクトWebサイト: https://qianzhong-chen.github.io/sarm.github.io/