SAVGO:連続制御のための余弦類似度による状態-行動価値ジオメトリ学習

arXiv cs.LG / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、連続的なアクション空間で方策更新を価値ベースの類似度で直接形作る、ジオメトリに着目した強化学習手法SAVGOを提案している。
  • SAVGOは、行動価値推定が類似した状態-行動ペアを余弦類似度が高い方向へ埋め込み、非類似ペアは埋め込み空間の異なる方向へ分離するような関係を学習する。
  • 学習したジオメトリを用いて、各更新で候補アクションに対する類似度カーネルを構成し、局所的な勾配更新だけでは到達しにくい高価値領域へ方策改善を導く。
  • 表現学習・価値推定・方策最適化を、ジオメトリ整合的な単一の目的関数のもとで統合しつつ、オフポリシーのアクタークリティック学習のスケーラビリティを維持する。
  • MuJoCoの連続制御ベンチマークで、強力なベースラインより良い性能を示し、アブレーション分析により価値ジオメトリ学習と類似度に基づく方策更新の寄与が裏付けられている。

Abstract

表現学習と類似度学習は強化学習(RL)のサンプル効率を向上させてきましたが、アクション空間において方策更新を直接形作るために用いられることはほとんどありません。このギャップを埋めるために、価値に基づく類似性を方策更新へ明示的に取り込む、幾何学に着目した強化学習アルゴリズムであるState-Action Value Geometry Optimization(SAVGO)を提案します。具体的には、SAVGOは、類似した行動価値推定をもつペアが高いコサイン類似度を示し、一方で不一致なペアは異なる方向へ写像されるような、結合された状態—行動埋め込み空間を学習します。この学習された幾何構造により、各更新でサンプルされた候補行動に対して類似度カーネルを生成でき、局所的な勾配に基づく更新を超えて、より高い価値領域へ方策改善を直接導くことが可能になります。その結果、表現学習、価値推定、方策最適化が単一の幾何学的一貫した目的関数のもとに統合されつつ、オフポリシーのアクタークリティック学習のスケーラビリティは維持されます。提案手法は、標準的なMuJoCoの連続制御ベンチマークで評価され、難しい高次元タスクにおいて強力なベースラインを上回る改善が示されます。さらに、価値—幾何学に基づく学習と類似度に基づく方策更新がどのように寄与しているかを分析するために、アブレーション研究を行います。