D-SPEAR:安定した強化学習のための双方向ストリーム優先度付き経験リプレイ(Dual-Stream Prioritized Experience Adaptive Replay)—ロボットによる操作タスク向け
arXiv cs.RO / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、接触が多く、長い時間軸を要するロボット操作タスクにおけるオフポリシー強化学習を安定化するための、双方向ストリーム優先度付き経験リプレイ手法D-SPEARを提案する。
- D-SPEARは共有リプレイバッファ内でアクタとクリティックのサンプリングを切り離し、優先度付きリプレイによりクリティックの価値学習を改善する一方、方策の振動や崩壊を防ぐため、アクタの更新は主に低誤差の遷移を用いて行う。
- TD誤差の変動係数に基づき、一様サンプリングと優先度付きサンプリングのバランスを動的に調整する適応的な「アンカー」メカニズムを導入し、学習の各段階を通じて安定した学習を維持することを目指す。
- クリティックの目的関数には、報酬が異なるスケールを持つ場合の頑健性を高めるために、Huberベースの定式化を用いることで外れ値への感度を低減する。
- Block-LiftingやDoor-Openingといったrobosuiteのタスクに対する実験において、D-SPEARは最終性能と学習安定性の両面でSAC、TD3、DDPGを上回り、アブレーション結果はアクタ側とクリティック側のリプレイ・ストリームがそれぞれ独立に寄与していることを支持する。



