RE-SAC: バス車両群制御におけるアレータリック不確実性とエピステミック不確実性の分離—安定かつ堅牢なアンサンブルDRLアプローチ

arXiv cs.LG / 2026/3/20

📰 ニュースModels & Research

共有:

要点

本論文は、DRLに基づくバス待機制御が、アレータリック不確実性（ノイズ）とエピステミック不確実性（データ不足）を混同することによりQ値の不安定性を生じさせ、ノイズの多い環境で過小評価とポリシー崩壊のリスクを招くことを指摘している。
RE-SACは、アレータリック不確実性をヘッジするためにクリティックにIPMベースの重み正則化を導入し、費用のかかる内ループの摂動を伴わずに頑健ベルマン演算子の滑らかな下限を提供するとともに、データがまばらな領域で過信的推定を抑制する多様化したQアンサンブルを併用する。
現実的な双方向バス回廊のシミュレーションでは、RE-SACはバニラSACより高い累積報酬を達成し（-0.4e6 対 -0.55e6）、希少なOOD状態におけるOracle Q値推定誤差を最大62%低減する（MAE 1647 対 4343）。
この結果は、高い交通量変動に対する頑健性の向上と、現実的な交通運行制御シナリオにおけるより良い性能を示している。

Abstract

バスの待機制御は、確率的な交通と乗客需要のために困難である。深層強化学習（DRL）は有望だが、標準的なアクター-クリティックアルゴリズムは、揺れ動く環境でQ値の不安定性に悩まされる。この不安定性の主な原因は、二つの異なる不確実性の混同である：aleatoric不確実性（不可避ノイズ）とepistemic不確実性（データ不足）。これらを単一のリスクとして扱うと、ノイズの多い状態で値が過小評価され、致命的なポリシー崩壊を招く。これらの不確実性を明示的に分離する、ロバストなアンサンブル・ソフト・アクター-クリティック（RE-SAC）フレームワークを提案する。RE-SACは、IPM（Integral Probability Metric）ベースの重み正則化をクリティックネットワークに適用し、aleatoricリスクに対するヘッジを提供し、コストのかかる内部ループの摂動を用いずにロバストベルマン演算子の滑らかな解析的下限を提供する。epistemicリスクに対処するため、多様化されたQアンサンブルが、希薄にカバーされた領域での過信的な値推定を抑制する。この二重の機構は、アンサンブル分散がノイズをデータ欠損として誤認するのを防ぎ、我々のアブレーション研究で特定された故障モードを回避する。現実的な双方向バス回廊のシミュレーション実験により、RE-SACは通常のSAC（-0.55e6）と比較して最高の累積報酬を達成することを示す（約 -0.4e6）。マハラノビス希少性分析は、RE-SACが希少な分布外状態でOracle Q値推定誤差を最大62%削減することを確認し（MAEは1647対4343）、交通量の高い変動性下での優れたロバスト性を示している。

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜

note

AIは学術不正の共犯者になるか〜AFIMベンチマークの衝撃〜

note

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

RE-SAC: バス車両群制御におけるアレータリック不確実性とエピステミック不確実性の分離—安定かつ堅牢なアンサンブルDRLアプローチ

要点

Abstract

関連記事

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜

AIは学術不正の共犯者になるか〜AFIMベンチマークの衝撃〜

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜

AIは学術不正の共犯者になるか〜AFIMベンチマークの衝撃〜

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも