RE-SAC: バス車両群制御におけるアレータリック不確実性とエピステミック不確実性の分離—安定かつ堅牢なアンサンブルDRLアプローチ
arXiv cs.LG / 2026/3/20
📰 ニュースModels & Research
要点
- 本論文は、DRLに基づくバス待機制御が、アレータリック不確実性(ノイズ)とエピステミック不確実性(データ不足)を混同することによりQ値の不安定性を生じさせ、ノイズの多い環境で過小評価とポリシー崩壊のリスクを招くことを指摘している。
- RE-SACは、アレータリック不確実性をヘッジするためにクリティックにIPMベースの重み正則化を導入し、費用のかかる内ループの摂動を伴わずに頑健ベルマン演算子の滑らかな下限を提供するとともに、データがまばらな領域で過信的推定を抑制する多様化したQアンサンブルを併用する。
- 現実的な双方向バス回廊のシミュレーションでは、RE-SACはバニラSACより高い累積報酬を達成し(-0.4e6 対 -0.55e6)、希少なOOD状態におけるOracle Q値推定誤差を最大62%低減する(MAE 1647 対 4343)。
- この結果は、高い交通量変動に対する頑健性の向上と、現実的な交通運行制御シナリオにおけるより良い性能を示している。


![[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜](/_next/image?url=https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F260885500%2Frectangle_large_type_2_f8df7c72d21f86c39d4096dd995f50d1.png%3Fwidth%3D219%26dpr%3D2%26frame%3D1%26format%3Djpg&w=3840&q=75)
