Multi-ORFT:協調運転におけるマルチエージェント・拡散計画のための安定したオンライン強化微調整
arXiv cs.RO / 2026/4/14
📰 ニュースSignals & Early TrendsModels & Research
要点
- Multi-ORFTは、マルチエージェントの拡散ベース協調運転プランナーに対する、クローズドループ信頼性の向上を目標とした安定なオンライン強化微調整フレームワークとして導入される。
- この手法は、シーン条件付き拡散事前学習(エージェント間自己注意、クロス注意、およびAdaLN-Zeroによるシーン・コンディショニング)を組み合わせることで、生成される共同軌道のシーン整合性と走行レーンへの追従性を高める。
- オンラインのポストトレーニングでは、Multi-ORFTが二階層MDPを定義し、ステップごとのリバース・カーネル尤度を活用するとともに、分散ゲート付きの群相対ポリシー最適化(VG-GRPO)と、軌道レベルの密な報酬を用いて、反応的環境での学習を安定化する。
- WOMDクローズドループ・ベンチマークにおいて、Multi-ORFTは衝突率(2.04%→1.89%)と路外率(1.68%→1.36%)を低減しつつ、平均速度(8.36→8.61 m/s)を向上させ、主要な安全性/効率性指標でいくつかの強力なオープンソースの拡散計画ベースラインを上回る。




