PriPG-RL: いつでも実行可能なMPCを用いた、部分観測系に対する特権プランナー誘導強化学習

arXiv cs.RO / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、部分観測下での強化学習（RL）を、学習時のみ利用可能な特権（privileged）なプランナーと、その状態/モデル情報を通じて改善する枠組みを提案します。
特権プランナーとして「いつでも実行可能（anytime-feasible）」なモデル予測制御（MPC）を導入し、学習エージェントは損失のある状態射影に基づいて行動を学習します。
学習側では、プランナー知識を蒸留する「Planner-to-Policy Soft Actor-Critic（P2P-SAC）」により、部分観測の不利を緩和してサンプル効率と最終性能の向上を狙います。
理論的な解析に加え、NVIDIA Isaac Labでのシミュレーションと、障害物が多い環境でのUnitree Go2四足ロボットへの実機展開によって有効性を検証しています。

Abstract

本論文は、訓練中にのみ利用可能な、特権的でいつでも実行可能（anytime-feasible）なプランナ・エージェントを活用することで部分観測下における強化学習（RL）方策の訓練問題に取り組む。これを、近似的な動力学モデルと特権的な状態情報へのアクセスを持つプランナ・エージェントが、真の状態のロッシーな射影（損失を伴う射影）しか観測しない学習エージェントを導く、部分観測マルコフ決定過程（POMDP）として形式化する。本枠組みを実現するために、プランナ・エージェントとして機能する、いつでも実行可能なモデル予測制御（MPC）アルゴリズムを提案する。学習エージェントに対しては、Planner-to-Policy Soft Actor-Critic（P2P-SAC）を提案する。これは、部分観測性を緩和するためにプランナ・エージェントの特権的知識を蒸留（distill）し、その結果としてサンプル効率と最終的な方策性能の両方を改善する手法である。本枠組みを、厳密な理論解析によって支える。最後に、NVIDIA Isaac Lab を用いたシミュレーションで本アプローチを検証し、障害物が豊富な複雑な環境を移動する実世界の Unitree Go2 四足ロボットへの正常なデプロイに成功する。

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

SHIFT丹下社長「新入社員にも『AIで君の仕事はなくなる』と伝え、考えさせる」

日経XTECH

PriPG-RL: いつでも実行可能なMPCを用いた、部分観測系に対する特権プランナー誘導強化学習

要点

Abstract

関連記事

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

SHIFT丹下社長「新入社員にも『AIで君の仕事はなくなる』と伝え、考えさせる」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

SHIFT丹下社長「新入社員にも『AIで君の仕事はなくなる』と伝え、考えさせる」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ