要旨: 私たちは、広大な状態-行動空間における効率的な探索を促進する新規の強化学習(RL)アルゴリズムGuidedSACを提案します。GuidedSACは、Soft Actor-Critic (SAC) アルゴリズムに対して行動レベルの指示を提供する知的な監督者として、大規模言語モデル(LLMs)を活用します。LLMベースの監督者は、状態情報と視覚的リプレイを用いて最新の軌跡を分析し、標的を絞った探索を可能にする行動レベルの介入を提供します。さらに、GuidedSACの理論解析を提供し、SACの収束保証を維持しつつ収束速度を改善することを証明します。離散制御環境および連続制御環境での実験を通じて、おもちゃのテキストタスクや複雑な MuJoCo ベンチマークを含み、GuidedSACは標準のSACおよび最先端の探索強化系(例:RND、ICM、E3B)を、サンプル効率と最終性能の点で一貫して上回ることを示します。
連続制御のためのLLMベースのアクションレベル指導を備えた効率的なソフトアクター-クリティック法
arXiv cs.LG / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- GuidedSACは、Soft Actor-Criticアルゴリズムにアクションレベルの指導を提供するLLMベースのスーパーバイザを導入し、大規模な状態-行動空間におけるターゲットを絞った探索を可能にする。
- LLMベースのスーパーバイザは、現在の状態情報と視覚的リプレイを用いて最近の軌跡を分析し、探索を指導するアクションレベルの介入を提供する。
- 理論分析は、GuidedSACがSACの収束保証を維持しつつ収束を加速することを示している。
- MuJoCoベンチマークを含む離散・連続タスクでの経験的結果は、GuidedSACが標準のSACおよび探索強化手法(RND、ICM、E3B)よりもサンプル効率と最終性能の点で優れていることを示している。




