広告

D-SPEAR:安定した強化学習のための双方向ストリーム優先度付き経験リプレイ(Dual-Stream Prioritized Experience Adaptive Replay)—ロボットによる操作タスク向け

arXiv cs.RO / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、接触が多く、長い時間軸を要するロボット操作タスクにおけるオフポリシー強化学習を安定化するための、双方向ストリーム優先度付き経験リプレイ手法D-SPEARを提案する。
  • D-SPEARは共有リプレイバッファ内でアクタとクリティックのサンプリングを切り離し、優先度付きリプレイによりクリティックの価値学習を改善する一方、方策の振動や崩壊を防ぐため、アクタの更新は主に低誤差の遷移を用いて行う。
  • TD誤差の変動係数に基づき、一様サンプリングと優先度付きサンプリングのバランスを動的に調整する適応的な「アンカー」メカニズムを導入し、学習の各段階を通じて安定した学習を維持することを目指す。
  • クリティックの目的関数には、報酬が異なるスケールを持つ場合の頑健性を高めるために、Huberベースの定式化を用いることで外れ値への感度を低減する。
  • Block-LiftingやDoor-Openingといったrobosuiteのタスクに対する実験において、D-SPEARは最終性能と学習安定性の両面でSAC、TD3、DDPGを上回り、アブレーション結果はアクタ側とクリティック側のリプレイ・ストリームがそれぞれ独立に寄与していることを支持する。

Abstract

強化学習にとって、接触に富むダイナミクス、長いホライゾン、学習の不安定性のために、ロボットによる操作は依然として困難です。シミュレーションではSACやTD3のようなオフポリシーのアクター-クリティック手法がよく機能する一方で、現実的な環境では、経験リプレイ戦略がアクターとクリティックで異なるデータ要求を無視していることに一部起因して、方策の振動や性能の崩壊にしばしば見舞われます。我々はD-SPEAR:Dual-Stream Prioritized Experience Adaptive Replay(双方向ストリーム優先度付き経験適応リプレイ)を提案します。これは、共有リプレイバッファを維持しつつ、アクターとクリティックのサンプリングを分離するリプレイの枠組みです。クリティックは効率的な価値学習のために優先度付きリプレイを活用し、一方アクターは方策最適化を安定化するために低誤差の遷移を用いて更新されます。適応アンカー機構により、TD誤差の変動係数に基づいて一様サンプリングと優先度付きサンプリングのバランスを取ります。また、Huberベースのクリティック目的関数により、報酬スケールが異なる(ヘテロな)状況下でも頑健性がさらに向上します。robosuiteベンチマークから、Block-Lifting(ブロック持ち上げ)およびDoor-Opening(ドア開閉)を含む困難なロボット操作タスクでD-SPEARを評価します。その結果、D-SPEARは、最終性能と学習安定性の両方において、SAC、TD3、DDPGを含む強力なオフポリシー基準手法を一貫して上回ることが示されます。さらに、アブレーション研究により、アクター側リプレイストリームとクリティック側リプレイストリームの補完的な役割が確認されます。

広告