SAVGO：連続制御のための余弦類似度による状態-行動価値ジオメトリ学習

arXiv cs.LG / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、連続的なアクション空間で方策更新を価値ベースの類似度で直接形作る、ジオメトリに着目した強化学習手法SAVGOを提案している。
SAVGOは、行動価値推定が類似した状態-行動ペアを余弦類似度が高い方向へ埋め込み、非類似ペアは埋め込み空間の異なる方向へ分離するような関係を学習する。
学習したジオメトリを用いて、各更新で候補アクションに対する類似度カーネルを構成し、局所的な勾配更新だけでは到達しにくい高価値領域へ方策改善を導く。
表現学習・価値推定・方策最適化を、ジオメトリ整合的な単一の目的関数のもとで統合しつつ、オフポリシーのアクタークリティック学習のスケーラビリティを維持する。
MuJoCoの連続制御ベンチマークで、強力なベースラインより良い性能を示し、アブレーション分析により価値ジオメトリ学習と類似度に基づく方策更新の寄与が裏付けられている。

Abstract

表現学習と類似度学習は強化学習（RL）のサンプル効率を向上させてきましたが、アクション空間において方策更新を直接形作るために用いられることはほとんどありません。このギャップを埋めるために、価値に基づく類似性を方策更新へ明示的に取り込む、幾何学に着目した強化学習アルゴリズムであるState-Action Value Geometry Optimization（SAVGO）を提案します。具体的には、SAVGOは、類似した行動価値推定をもつペアが高いコサイン類似度を示し、一方で不一致なペアは異なる方向へ写像されるような、結合された状態—行動埋め込み空間を学習します。この学習された幾何構造により、各更新でサンプルされた候補行動に対して類似度カーネルを生成でき、局所的な勾配に基づく更新を超えて、より高い価値領域へ方策改善を直接導くことが可能になります。その結果、表現学習、価値推定、方策最適化が単一の幾何学的一貫した目的関数のもとに統合されつつ、オフポリシーのアクタークリティック学習のスケーラビリティは維持されます。提案手法は、標準的なMuJoCoの連続制御ベンチマークで評価され、難しい高次元タスクにおいて強力なベースラインを上回る改善が示されます。さらに、価値—幾何学に基づく学習と類似度に基づく方策更新がどのように寄与しているかを分析するために、アブレーション研究を行います。

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

Anthropic News

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

日経XTECH

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

The Verge

CLMAフレームテスト

Dev.to

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

Dev.to

SAVGO：連続制御のための余弦類似度による状態-行動価値ジオメトリ学習

要点

Abstract

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍 東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」