Multi-ORFT:協調運転におけるマルチエージェント・拡散計画のための安定したオンライン強化微調整

arXiv cs.RO / 2026/4/14

📰 ニュースSignals & Early TrendsModels & Research

要点

  • Multi-ORFTは、マルチエージェントの拡散ベース協調運転プランナーに対する、クローズドループ信頼性の向上を目標とした安定なオンライン強化微調整フレームワークとして導入される。
  • この手法は、シーン条件付き拡散事前学習(エージェント間自己注意、クロス注意、およびAdaLN-Zeroによるシーン・コンディショニング)を組み合わせることで、生成される共同軌道のシーン整合性と走行レーンへの追従性を高める。
  • オンラインのポストトレーニングでは、Multi-ORFTが二階層MDPを定義し、ステップごとのリバース・カーネル尤度を活用するとともに、分散ゲート付きの群相対ポリシー最適化(VG-GRPO)と、軌道レベルの密な報酬を用いて、反応的環境での学習を安定化する。
  • WOMDクローズドループ・ベンチマークにおいて、Multi-ORFTは衝突率(2.04%→1.89%)と路外率(1.68%→1.36%)を低減しつつ、平均速度(8.36→8.61 m/s)を向上させ、主要な安全性/効率性指標でいくつかの強力なオープンソースの拡散計画ベースラインを上回る。