BEVPredFormer：自動運転におけるBEVインスタンス予測のための空間—時間注意

arXiv cs.CV / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、自動運転のために、現在および将来フレームにまたがって鳥瞰図（BEV）セグメンテーションとモーション推定を同時に行う、カメラのみのアーキテクチャであるBEVPredFormerを提案する。
注目ベースの時間処理による注意機構を用いて、高密度な空間—時間情報を効率的にモデル化するという課題に取り組む。具体的には、リカレントフリー設計、ゲート付きトランスフォーマ層、分割された空間—時間注意メカニズムを採用する。
本モデルは、カメラ情報に対する注意ベースの3D投影と、時間表現を強化する差分ガイド付き特徴抽出モジュールを用いる。
nuScenesデータセットでの実験により、BEVPredFormerは既存の最先端手法と同等、またはそれ以上の性能を示すことが確認されており、アブレーション研究により各アーキテクチャ構成要素の効果が検証されている。

Abstract

ダイナミックなシーンがどのように変化していくかを頑健に理解することは、自動運転システムにとって不可欠です。自動運転システムは、周囲の障害物の振る舞いを正確に検出・追跡・予測する必要があります。モジュール型のアーキテクチャに依存する従来の知覚パイプラインは、累積誤差とレイテンシに悩まされがちです。インスタンス予測モデルは統一的な解決策を提供し、複数のセンサーから直接得た情報を用いて、現在および将来のフレームにわたるBird's-Eye-View（俯瞰視点）セグメンテーションとモーション推定を同時に行います。しかし、これらのモデルにおける重要な課題は、動的な運転環境に内在する密な空間情報と時間情報を効果的に処理することにあります。この複雑さの水準には、リアルタイム性能を損なうことなく、微細な運動パターンと長距離の依存関係を捉えられるアーキテクチャが求められます。そこで本研究では、俯瞰視点（BEV）インスタンス予測のための新しいカメラのみのアーキテクチャであるBEVPredFormerを提案します。BEVPredFormerは、注意（attention）に基づく時間処理を用いてシーンの時間的・空間的理解を向上させ、カメラ情報の注意に基づく3D投影に依存します。BEVPredFormerは、再帰（recurrent）なしの設計であり、ゲーティング付きトランスフォーマ層、分割された時空間注意（spatio-temporal attention）機構、マルチスケールのヘッドタスクを組み込みます。さらに、差分に導かれた特徴抽出モジュールを導入し、時間表現を強化します。広範なアブレーション研究により、各アーキテクチャ構成要素の有効性が検証されています。nuScenesデータセットで評価したところ、BEVPredFormerは既存の最先端手法（State-Of-The-Art）と同等、あるいはそれを上回る結果となり、頑健かつ効率的な自動運転の知覚における潜在力が示されました。