敵対者を抑制する：分数目的関数による安定なミニマックス深層決定論的方策勾配（MMDDPG）

arXiv cs.LG / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

MMDDPG（分数目的を備えたミニマックス深層決定論的方策勾配）は、連続制御タスクにおける撹乱耐性ポリシーを学習することを目的として提案されている。
訓練は、ユーザーポリシーと敵対的撹乱ポリシーとのミニマックスゲームとして定式化され、ユーザーは目的関数を最小化し、敵対者はそれを最大化する。
タスク性能と撹乱の大きさのバランスを取るために分数的な目的関数を導入し、過度に攻撃的な撹乱を防ぎ、学習を安定化させる。
MuJoCo環境での実験は、外力撹乱およびモデルパラメータの変動に対する頑健性が著しく向上することを示した。

Abstract: 強化学習（RL）は、幅広い制御と意思決定タスクで顕著な成功を収めている。しかし、予期せぬ外乱とモデル不確実性の影響を受ける環境で展開されると、RLエージェントは不安定な挙動を示すか、性能が低下することがしばしばある。したがって、そのような条件下で信頼性の高い性能を確保することは依然として重要な課題である。本論文では、連続制御タスクにおいて撹乱耐性ポリシーを学習するためのフレームワークとしてミニマックス深層決定論的ポリシー勾配（MMDDPG）を提案する。訓練プロセスは、ユーザーポリシーと敵対的撹乱ポリシーとの間のミニマックス最適化問題として定式化される。この問題では、ユーザーは目的関数を最小化する堅牢なポリシーを学習し、敵はそれを最大化する撹乱を生成する。この相互作用を安定化させるため、タスク性能と撹乱の大きさをバランスさせる分数的な目的関数を導入する。この目的関数は、過度に攻撃的な撹乱を防ぎ、堅牢な学習を促進する。MuJoCo環境での実験評価は、提案手法MMDDPGが外部力の撹乱とモデルパラメータの変動の両方に対して顕著に改善された頑健性を示すことを示している。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

敵対者を抑制する：分数目的関数による安定なミニマックス深層決定論的方策勾配（MMDDPG）

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer