広告

多対のエージェントによる運転シミュレーションに向けた、効率的かつ頑健な行動モデル

arXiv cs.RO / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、シミュレーションのために個々の交通参加者を表現・符号化する方法を最適化することで、より効率的かつ頑健な多対エージェント運転行動モデルを提案する。
  • 各参加者および地図要素ごとにローカル座標系を用いるインスタンス中心のシーン表現を導入し、視点不変な符号化を可能にするとともに、静的な地図トークンをシミュレーション手順間で再利用できるようにする。
  • 相互作用のモデリングには、ローカル座標系間の関係を捉えるための相対位置エンコーディングを用いたクエリ中心の対称的なコンテキストエンコーダを使用する。
  • 行動モデルは、適応的な報酬変換を伴う敵対的逆強化学習(Adversarial Inverse Reinforcement Learning)によって学習し、訓練中に頑健性と現実性のバランスを自動的に切り替える。
  • 実験結果では、トークン数に対するスケーリングの改善と、複数のエージェント中心ベースラインよりも高い位置精度・頑健性が示されるほか、訓練および推論時間の削減も確認される。

要旨: 大規模なマルチエージェント運転シミュレーションには、現実的でありながら計算効率の高い行動モデルが必要です。本研究では、個々の交通参加者を制御する行動モデルを最適化することでこの課題に取り組みます。効率を向上させるために、インスタンス中心のシーン表現を採用します。ここでは、各交通参加者とマップ要素を、それぞれのローカル座標系でモデル化します。この設計により、視点不変なシーン符号化が効率的に可能になり、静的マップトークンをシミュレーションの各ステップで再利用できます。相互作用をモデル化するために、ローカルフレーム間の相対位置符号化を用いた、クエリ中心の対称コンテキストエンコーダを採用します。行動モデルを学習するために、敵対的逆強化学習(Adversarial Inverse Reinforcement Learning)を用い、訓練中に頑健性と現実性のバランスを自動的に調整する適応的報酬変換を提案します。実験の結果、提案手法はトークン数に対して効率的にスケールし、訓練および推論の時間を大幅に削減しつつ、位置精度と頑健性の観点でいくつかのエージェント中心のベースラインよりも優れていることが示されました。

広告