Abstract
自動運転において、エージェントの挙動を正確にモデル化することは重要な課題である。これはまた、多くの対称性を伴う課題でもある。例えば、シーン内のエージェントや物体の順序に対する同変性、あるいはシーン全体に対する任意のロト(回転・平行移動)変換への同変性、すなわちSE(2)-同変性である。トランスフォーマー・アーキテクチャは、これらの対称性をモデル化するための広く用いられている手段である。標準的な自己注意は本質的に順列同変である一方で、SE(2)-同変性を導入するための手法としては、明示的なペアごとの相対位置エンコーディングが標準となってきた。しかしこのアプローチは、エージェント数に対して計算コストが二次的に増大する追加コストを導入するため、より大きなシーンやバッチサイズへのスケーラビリティが制限される。本研究では、既存手法の計算コストを伴わずにSE(2)-同変性を達成する、エージェントモデリングのための新しいトランスフォーマーベースのアーキテクチャDriveGATrを提案する。幾何学的深層学習における最近の進展に着想を得て、DriveGATrはシーン要素を2D射影幾何代数 mathbb{R}^*_{2,0,1} のマルチベクトルとして符号化し、それらを一連の同変トランスフォーマーブロックで処理する。重要なのは、DriveGATrがマルチベクトル間の標準的な注意(アテンション)を用いて幾何学的関係をモデル化することであり、コストの高い明示的なペアごとの相対位置エンコーディングは不要になる点である。Waymo Open Motion Datasetに対する実験により、DriveGATrが交通シミュレーションにおける最先端と同等であること、また計算コストに対する性能という観点で優れたパレートフロントを確立したことが示される。