推論時の嗜好整合により制御可能な敵対的シナリオ生成

arXiv cs.RO / 2026/5/6

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • この論文は、自動運転の安全性評価のための敵対的シナリオ生成を「多目的嗜好整合問題」として捉え直し、従来手法の“敵対性と現実性のトレードオフが固定”という制約を解決します。
  • SAGE(Steerable Adversarial scenario GEnerator)を提案し、敵対性と現実性のバランスを推論時にきめ細かく調整できる一方で、再学習は不要にしています。
  • SAGEは階層的なグループベースの嗜好最適化を用い、データ効率を高めるために「達成可能性の硬い制約」と「ソフトな嗜好」を切り分けて学習します。
  • 1つの固定モデルを作るのではなく、反対する嗜好を持つ2つのエキスパートを微調整し、推論時に重みを線形補間して連続的な範囲の方策を構成します。
  • 実験結果と理論的根拠(線形モード連結の観点)により、SAGEが敵対性と現実性のより良い両立を持つシナリオを生成し、さらにクローズドループでの運転ポリシー学習も効果的にできることが示されています。

要旨: 敵対的シナリオ生成は、自動運転システムの安全性評価に対する費用対効果の高いアプローチである。しかし、既存手法はしばしば、敵対性と現実性のような競合する目的間のトレードオフを単一の固定的なものに制約されがちである。これにより、振る舞い(挙動)固有のモデルが生まれ、推論時に制御(操縦)することができない。その結果、多様な学習・テスト要件に応じて調整されたシナリオを効率的かつ柔軟に生成できない。そこで本研究では、敵対的シナリオ生成の課題を、多目的の嗜好(プレファレンス)整合問題として捉え直し、新たな枠組みである\textbf{S}teerable \textbf{A}dversarial scenario \textbf{GE}nerator(SAGE)を提案する。SAGEは、再学習を行うことなく、敵対性と現実性のトレードオフに関してテスト時のきめ細かな制御を可能にする。まず、データ効率の高いオフライン整合手法である階層的なグループベースの嗜好最適化を提案する。これは、困難な実現可能性制約(ハードなフィージビリティ制約)をソフトな嗜好から切り離すことで、競合する目的のバランスを取ることを学習する。固定のモデルを訓練する代わりに、SAGEは、反対の嗜好を持つ2つのエキスパートを微調整し、推論時にそれらの重みを線形補間することで、連続的な政策(ポリシー)のスペクトルを構築する。本枠組みについては、線形モード接続(linear mode connectivity)の観点から理論的な正当化を与える。大規模な実験の結果、SAGEは敵対性と現実性のより優れたバランスを備えたシナリオを生成するだけでなく、自動運転ポリシーのクローズドループ学習(閉ループ学習)をより効果的に可能にすることを示す。プロジェクトページ: https://tongnie.github.io/SAGE/。