RAMP:数値行動モデルのオンライン学習のためのハイブリッドDRL

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、専門家のトレースによるオフライン学習に頼らず、環境との相互作用を通じて数値計画の行動モデルをオンラインで学習する戦略RAMPを提案する。
  • RAMPは、過去の経験から深層強化学習(DRL)ポリシーと数値行動モデルを共同で学習し、学習したモデルを用いて計画を立て、将来の行動を選択する。
  • この手法は、正のフィードバックループとして設計されており、プランナの行動提案がRLポリシーの改善を助け、RLポリシーの探索がデータを生成して行動モデルの洗練に寄与する。
  • 数値計画問題と強化学習の橋渡しのために、著者らは数値計画タスクをGym互換の環境へ自動変換するNumeric PDDLGymを開発する。
  • IPCの数値計画ドメインでの実験により、RAMPはPPOに比べて大幅に改善し、解ける性質(解の到達可能性)と計画の質の両方を向上させることが報告されている。