レーシング用パラメータ化深層強化学習による自律走行車の衝突回避

arXiv cs.RO / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、非線形な車両ダイナミクスの範囲内でかつ計算効率も重視した、自律走行車向けの外れ分布（OOD）衝突回避方策を、パラメータ化された深層強化学習（DRL）で提案しています。
学習はシミュレーション上で「レーシングカーの追い越し」状況を用いて行い、明示的な幾何学的な軌道ガイダンスではなく、物理に基づくかつシミュレータ悪用を考慮した報酬設計で方策を獲得します。
検証では、デフォルトの追い越し方策と逆向きヘディング方策の2つを評価し、複数の交差点における衝突シナリオで、一般的なMPCおよび人工ポテンシャル関数（MPC-APF）基準手法より一貫して優れたと報告されています。
方策は「ゼロショット」で、比例的にスケールしたハードウェアへ転移できるとされ、計算負荷についても31×少ないFLOPSと、推論遅延の64×低減を主張しています。
正面衝突では、逆向きヘディング方策がデフォルトのDRL追い越し方策より30%、MPC-APF基準より50%高い性能を示し、側面衝突でも両DRLが数値的な最適制御より約10%優れた回避性能を達成したと述べられています。

要旨: 道路交通事故は、世界中で死亡原因の主要なものです。米国では、人為的ミスが94%の衝突の原因となっており、その結果として、歩行者の死亡が年間7,000人以上、費用は毎年5,000億ドルを超えています。高頻度で車両ダイナミクスの限界域で動作する緊急衝突回避システムを備えた自動運転車（AV）は、非線形の運動学・ダイナミクスの精度と計算効率という二重の制約のもとで、安全性の利点を、悪天候やサイバーセキュリティ侵害時にさらに高めるだけでなく、AVと人間の運転者が同じ道路を共有するときに危険な人間の運転を回避することにも寄与します。本論文では、レースカーによる追い越しを利用して、幾何学的な模倣参照軌道のガイダンスを明示せずに、シミュレーション上で、物理情報を用い、シミュレータの悪用に対する考慮を反映した報酬によって非線形の車両運動学・ダイナミクスを符号化する、衝突回避の方策のための深層強化学習（DRL）を、分布外（OOD）でパラメータ化します。評価されたのは2つの方策で、デフォルトの一方向、および他の車とは逆方向に進むリバースヘディング（反転ヘディング）変種です。これらはいずれも、3つの交差点における衝突シナリオで、モデル予測制御および人工ポテンシャル関数（MPC-APF）のベースラインを一貫して上回り、さらに、比例的にスケールしたハードウェアへのゼロショット移送も達成します。計算コストは浮動小数点演算（FLOPS）で31倍少なく、推論レイテンシは64倍低いです。リバースヘディング方策は、正面からの対向衝突においてデフォルトのレーシング追い越し方策より30%、ベースラインより50%上回ります。また、側面衝突では前者と同等の性能を示し、両DRL方策は数値的な最適制御より10%多く回避します。