ARM: Advantage Reward Modeling for Long-Horizon Manipulation

arXiv cs.RO / 4/6/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 本論文は、長期ロボット操作におけるRLの課題である疎な報酬によるクレジットアサインメント不足を、絶対的な進捗ではなく相対的な「advantage」を推定するAdvantage Reward Modeling(ARM)で解決する枠組みとして提案しています。
  • ARMでは、Progressive/Regressive/Stagnantの3値ラベルで進捗を直感的に表現することで、人手アノテーションの認知負荷を下げつつ注釈者間の一貫性を高める方針を示しています。
  • 完全デモだけでなくDAgger様の断片データに対しても自動で進捗注釈を行えるように学習し、その学習済みシグナルをオフラインRLパイプラインに統合してアクション報酬の再重み付けによる不適切サンプルのフィルタを実現します。
  • 統合後の評価では、難しい長期タスクであるタオル折り畳みで成功率99.4%を達成し、VLAベースラインに対して安定性とデータ効率が向上したと報告し、人手介入がほぼ不要である点も強調しています。

Abstract

Long-horizon robotic manipulation remains challenging for reinforcement learning (RL) because sparse rewards provide limited guidance for credit assignment. Practical policy improvement thus relies on richer intermediate supervision, such as dense progress rewards, which are costly to obtain and ill-suited to non-monotonic behaviors such as backtracking and recovery. To address this, we propose Advantage Reward Modeling (ARM), a framework that shifts from hard-to-quantify absolute progress to estimating relative advantage. We introduce a cost-effective tri-state labeling strategy -- Progressive, Regressive, and Stagnant -- that reduces human cognitive overhead while ensuring high cross-annotator consistency. By training on these intuitive signals, ARM enables automated progress annotation for both complete demonstrations and fragmented DAgger-style data. Integrating ARM into an offline RL pipeline allows for adaptive action-reward reweighting, effectively filtering suboptimal samples. Our approach achieves a 99.4% success rate on a challenging long-horizon towel-folding task, demonstrating improved stability and data efficiency over current VLA baselines with near-zero human intervention during policy training.