ARM: 長期操作のためのAdvantage Reward Modeling

arXiv cs.RO / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、長期ロボット操作におけるRLの課題である疎な報酬によるクレジットアサインメント不足を、絶対的な進捗ではなく相対的な「advantage」を推定するAdvantage Reward Modeling(ARM)で解決する枠組みとして提案しています。
  • ARMでは、Progressive/Regressive/Stagnantの3値ラベルで進捗を直感的に表現することで、人手アノテーションの認知負荷を下げつつ注釈者間の一貫性を高める方針を示しています。
  • 完全デモだけでなくDAgger様の断片データに対しても自動で進捗注釈を行えるように学習し、その学習済みシグナルをオフラインRLパイプラインに統合してアクション報酬の再重み付けによる不適切サンプルのフィルタを実現します。
  • 統合後の評価では、難しい長期タスクであるタオル折り畳みで成功率99.4%を達成し、VLAベースラインに対して安定性とデータ効率が向上したと報告し、人手介入がほぼ不要である点も強調しています。