ATRS：共有ニューラルポリシーによる並列最適化のための適応的軌道再分割

arXiv cs.RO / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

ATRSは、固定された分解構造に依存する既存の並列長期モーション計画で起きる停滞を、ADMM最適化中に軌道セグメントを適応的に再分割することで解消することを目指します。
ATRSは共有Deep Reinforcement Learning（深層強化学習）ポリシーを並列ADMMループに組み込み、セグメントの再分割を、同一のエージェントとして扱い統一したニューラルネットワークを共有するマルチエージェント共有ポリシーMDPとして定式化します。
共有ポリシーによりサイズ不変性が得られ、再分割に伴ってセグメント数が変化しても対応でき、軌道長の違いにも一般化可能で、さらに数値ソルバ内部の状態に基づくため未見環境へのゼロショット転移も可能になります。
信頼度ベースの選出（Confidence-Based Election）により、毎ステップで最も停滞しているセグメントのみを再分割対象として選ぶことで、ソルバの安定性を高めます。
シミュレーションでは収束までの反復回数を最大26.0%削減し、計算時間を最大19.1%短縮するなどの効果が示され、現実世界の実験でも1サイクル35ms以内のリアルタイムなオンボード再計画が確認されました。
主な貢献は、学習による「数値ソルバの状態に基づいた」適応的再分割戦略により、収束性を改善しつつオフラインでもリアルタイムでも実用的にする点です。

要旨: 交互方向乗数法（ADMM）による並列軌道最適化は、長い予見区間にわたる運動計画をスケールさせる手法として注目を集めている。しかし、既存の枠組みでは一般に、あらかじめ固定された構造に基づいて問題を並列の部分問題へ分解する。そのような構造の硬直性は、強く制約された領域で最適化が停滞することをしばしば引き起こす。そこでは、遅れがちな少数の部分問題が全体の収束を遅らせる。自然な対処は、停滞している区間をオンラインで適応的に再分割することである。だが、いつ・どこで・どのように分割するかを決めることは、ルールベースのヒューリスティックでは能力を超えている。そこで本研究では、並列ADMMループに共有された深層強化学習ポリシーを埋め込む新しい枠組みATR Sを提案する。本手法では、この適応的な調整を、マルチエージェント共有ポリシー・マルコフ決定過程として定式化する。ここでは、すべての軌道区間を同質なエージェントとして扱い、統一されたニューラルポリシー・ネットワークを共有する。このパラメータ共有の構成は、再分割時に区間数が動的に変化する場合にも対応でき、任意の軌道長へ一般化できる、サイズ不変性をシステムにもたらす。さらに、幾何学的な環境特徴ではなく数値ソルバの内部状態のみにネットワークが依存しているため、未見の環境に対するゼロショットな一般化も本質的にサポートする。ソルバの安定性を確保するために、信頼度ベースの選挙（Confidence-Based Election）機構によって、各ステップで停滞が最も大きい区間のみが再分割の対象として選択される。大規模なシミュレーションの結果、ATR Sは収束を加速し、反復回数を最大26.0%削減し、計算時間を最大19.1%削減することが示された。実世界の実験でも、その適用可能性が確認されており、大規模なオフラインのグローバル計画と、35 msあたりのサイクルで実行するリアルタイムの機上再計画の両方に対して有効であることが、シミュレーションから現実への劣化（sim-to-real degradation）なしに示された。