SAVGO:連続制御のための余弦類似度による状態-行動価値ジオメトリ学習
arXiv cs.LG / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、連続的なアクション空間で方策更新を価値ベースの類似度で直接形作る、ジオメトリに着目した強化学習手法SAVGOを提案している。
- SAVGOは、行動価値推定が類似した状態-行動ペアを余弦類似度が高い方向へ埋め込み、非類似ペアは埋め込み空間の異なる方向へ分離するような関係を学習する。
- 学習したジオメトリを用いて、各更新で候補アクションに対する類似度カーネルを構成し、局所的な勾配更新だけでは到達しにくい高価値領域へ方策改善を導く。
- 表現学習・価値推定・方策最適化を、ジオメトリ整合的な単一の目的関数のもとで統合しつつ、オフポリシーのアクタークリティック学習のスケーラビリティを維持する。
- MuJoCoの連続制御ベンチマークで、強力なベースラインより良い性能を示し、アブレーション分析により価値ジオメトリ学習と類似度に基づく方策更新の寄与が裏付けられている。



