ContractionPPO: 微分可能な収縮層による認証付き強化学習

arXiv cs.RO / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

ContractionPPOは、PPO強化学習に状態依存の収縮メトリック層を導入し、多脚ロボットの認証可能な堅牢な計画と制御を実現します。
収縮メトリックはリプシッツ境界を満たすニューラルネットワークとしてパラメータ化され、ポリシーと共同で訓練されます。並列訓練として、または補助ヘッドとして訓練することができます。
収縮メトリックは実世界での実行時には展開されないものの、最悪ケースの収縮率の上限を導出し、シミュレーションから現実世界への一般化を保証します。
四足歩行のハードウェア実験は、強い外乱下での堅牢で認証可能な安定制御を示します。

要旨: 非構造的環境における脚歩行は、高性能な制御ポリシーだけでなく、摂動下での堅牢性を保証する形式的な保証も必要とします。制御手法は多くの場合、綿密に設計された参照軌道を必要としますが、これは高次元かつ接触が豊富な系（例えば四足歩行ロボット）では構築が困難です。これに対して、強化学習（RL）は運動を暗黙的に生成するポリシーを直接学習し、訓練時には全状態とダイナミクスなどの特権情報へアクセスできるという点で独自の利点を享受しますが、デプロイ時にはそれは利用できません。

本研究では ContractionPPO を提案します。これは Proximal Policy Optimization (PPO) RL に状態依存の収縮メトリック層を付加することにより、脚歩行ロボットの認定済みの堅牢な計画と制御を実現するフレームワークです。このアプローチは、ポリシーが性能を最大化すると同時に、シミュレーションされた閉ループ系の増分指数安定性を認証する収縮メトリックを同時に生成します。このメトリックはリプシッツ連続性を満たすニューラルネットワークとしてパラメータ化され、ポリシーと共同で訓練されます。並列して訓練される場合や、PPO バックボーンの補助ヘッドとして訓練されます。収縮メトリックは実世界での実行時には適用されませんが、最悪ケースの収縮率の上限を導出し、これらの境界が学習された収縮メトリックがシミュレーションから実世界へのデプロイメントへ一般化することを保証することを示します。四足歩行のハードウェア実験は、ContractionPPO が強い外部摂動下でも堅牢で証明可能な安定性を備えた制御を実現できることを示しています。返却形式: {"translated": "翻訳されたHTML"}