Multi-ORFT：協調運転におけるマルチエージェント・拡散計画のための安定したオンライン強化微調整

arXiv cs.RO / 2026/4/14

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

Multi-ORFTは、マルチエージェントの拡散ベース協調運転プランナーに対する、クローズドループ信頼性の向上を目標とした安定なオンライン強化微調整フレームワークとして導入される。
この手法は、シーン条件付き拡散事前学習（エージェント間自己注意、クロス注意、およびAdaLN-Zeroによるシーン・コンディショニング）を組み合わせることで、生成される共同軌道のシーン整合性と走行レーンへの追従性を高める。
オンラインのポストトレーニングでは、Multi-ORFTが二階層MDPを定義し、ステップごとのリバース・カーネル尤度を活用するとともに、分散ゲート付きの群相対ポリシー最適化（VG-GRPO）と、軌道レベルの密な報酬を用いて、反応的環境での学習を安定化する。
WOMDクローズドループ・ベンチマークにおいて、Multi-ORFTは衝突率（2.04%→1.89%）と路外率（1.68%→1.36%）を低減しつつ、平均速度（8.36→8.61 m/s）を向上させ、主要な安全性／効率性指標でいくつかの強力なオープンソースの拡散計画ベースラインを上回る。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH