自動運転エージェントモデリングのための効率的な同変トランスフォーマ

arXiv cs.LG / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、自動運転のエージェント挙動モデリングのためのトランスフォーマベースのアーキテクチャ「DriveGATr」を提案し、車線シーンにおける主要な対称性、すなわち置換（パーミュテーション）およびSE(2)（回転・並進）同変性を対象とする。
一般的な手法では、SE(2)-同変性を得るために明示的なペア間の相対位置エンコーディングを用いることが多く、その場合エージェント数に対して二次的な計算コストが増大しがちであるが、DriveGATrはこの追加負担を回避する。
DriveGATrは、2D射影幾何代数（\mathbb{R}^*_{2,0,1}）の多ベクトルを用いてシーン要素を表現し、それらの表現を処理するために同変トランスフォーマブロックのスタックを適用する。
本手法は、多ベクトルに対する通常の注意機構（attention）によって幾何学的関係のモデリングを実現し、高コストな明示的ペア間エンコーディングを不要にする。
Waymo Open Motion Datasetでの実験により、DriveGATrは最先端の交通シミュレーション性能に匹敵しつつ、より良い「性能対計算量」のパレートトレードオフを提供することが示される。

Abstract

自動運転において、エージェントの挙動を正確にモデル化することは重要な課題である。これはまた、多くの対称性を伴う課題でもある。例えば、シーン内のエージェントや物体の順序に対する同変性、あるいはシーン全体に対する任意のロト（回転・平行移動）変換への同変性、すなわちSE(2)-同変性である。トランスフォーマー・アーキテクチャは、これらの対称性をモデル化するための広く用いられている手段である。標準的な自己注意は本質的に順列同変である一方で、SE(2)-同変性を導入するための手法としては、明示的なペアごとの相対位置エンコーディングが標準となってきた。しかしこのアプローチは、エージェント数に対して計算コストが二次的に増大する追加コストを導入するため、より大きなシーンやバッチサイズへのスケーラビリティが制限される。本研究では、既存手法の計算コストを伴わずにSE(2)-同変性を達成する、エージェントモデリングのための新しいトランスフォーマーベースのアーキテクチャDriveGATrを提案する。幾何学的深層学習における最近の進展に着想を得て、DriveGATrはシーン要素を2D射影幾何代数

mathbb{R}^*_{2,0,1}

のマルチベクトルとして符号化し、それらを一連の同変トランスフォーマーブロックで処理する。重要なのは、DriveGATrがマルチベクトル間の標準的な注意（アテンション）を用いて幾何学的関係をモデル化することであり、コストの高い明示的なペアごとの相対位置エンコーディングは不要になる点である。Waymo Open Motion Datasetに対する実験により、DriveGATrが交通シミュレーションにおける最先端と同等であること、また計算コストに対する性能という観点で優れたパレートフロントを確立したことが示される。