不確実性を考慮した自律協調学習に基づく計画戦略の解明

arXiv cs.RO / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、認識・計画・通信の不確実性により既存のACP手法では十分に対処できないという課題に対し、自律協調計画（ACP）向けの深層強化学習フレームワークDRLACPを提案します。
GRU（ゲート付き再帰ユニット）を組み込んだSoft Actor-Critic（SAC）を用いて、計画・通信・認識の不確実性によって生じる不完全な状態情報下で、時間変化する最適行動を学習します。
提案手法は、計画・通信・認識の各段階で発生する不確実性に焦点を当て、協調的な運動計画の有効性と安全性の向上を目指します。
CARLAシミュレーション上の評価では、不完全なAV状態情報のもとで複数のシナリオにおいて、学習した協調計画がベースライン手法よりも優れていることが示されています。

要旨: 将来の高度な知能交通システムにおいて、自律協調計画（ACP）は、多車両間インタラクションの有効性と安全性を高める有望な手法となります。しかし、既存のACP戦略では、知覚、計画、通信に関する不確実性など、複数の不確実性を十分に扱うことはできません。これらに対処するために、自律協調運動計画の枠組みにおけるさまざまな不確実性に取り組む、新しい深層強化学習に基づく自律協調計画（DRLACP）フレームワークを提案します。具体的には、計画、通信、知覚に起因して生じる不完全な状態情報による、決定論的な最適な時変アクションを学習するために、ゲート付きリカレントユニット（GRU）を実装したソフト・アクター・クリティック（SAC）を採用します。さらに、自律車両（AV）のリアルタイムなアクションは、Car Learning to Act（CARLA）シミュレーションプラットフォームによって実証されます。評価結果より、提案するDRLACPは協調計画を効果的に学習して実行でき、またAVの状態情報が不完全なさまざまなシナリオにおいて、他のベースライン手法よりも優れていることが示されます。