要旨: モーション予測では、多くの場合、予測精度と解釈可能性の間でトレードオフが必要になります。標準的なアンカー(anchor)ベースのアーキテクチャは、潜在的なコラプス(latent collapse)に非常に起こりやすい不透明な潜在クエリ、または単純な軌道サンプリングによって多峰性の多様性が制限されるという問題があります。本研究では、「モーションバンク(motion bank)」と呼ばれる包括的な枠組みに予測を根付ける、エンドツーエンドで微分可能な手法を提案します。これは、対照学習(contrastive learning)によって構築される、物理的に実現可能な軌道の構造化された埋め込み空間です。空白の状態から経路を回帰するのではなく、我々のアーキテクチャは新しいアンカー検索レイヤ(Anchor Retrieval Layer)によって、明示的なモーションの事前知識を動的に取得します。このモジュールは、直交初期化されたクエリをデュアルレベル・ゲート付きクロスアテンション(Dual-Level Gated Cross-Attention)機構で適応させ、連続的な勾配フローを保持するためにストレートスルーのGumbel-Softmax推定量を用いて離散的な軌道選択を実行します。取得された意味的に根拠付けられたアンカーは、DETRスタイルのデコーダによって幾何学的に洗練されます。さらに、Winner-Takes-All(WTA)の運動学的ガウス混合モデル(GMM)、潜在多様性ペナルティ、ソフトミンで重み付けした終点ロスを同時に最適化します。多様で解釈可能なモーション・プリミティブに厳密にデコーディング段階を条件付けることで、我々の手法は標準的な潜在クエリの「ブラックボックス」を解消しつつ、Argoverse 2 および Waymo Open Motion のデータセットで競争力のある多峰性精度を実現します。コードは以下で公開されています: https://github.com/abviv/recall2predict
Recall to Predict:解釈可能なモーションバンクに基づくモーション予測の実現
arXiv cs.CV / 2026/5/5
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- モーション予測では、解釈可能性と予測精度の間にトレードオフが生じやすく、特に潜在クエリを使う標準的な手法は潜在崩壊に陥りやすかったり、サンプリングの多峰性(多様性)が制限されたりします。
- 提案手法「Recall to Predict」は、「モーションバンク」と呼ばれる包括的で解釈可能な埋め込み空間に予測を根付かせ、物理的に実現可能な軌道を対照学習で構築します。
- 新しいアンカー検索レイヤーでは、デュアルレベルのゲート付きクロスアテンションと、離散的な軌道選択に Straight-Through の Gumbel-Softmax 推定器を用いて、連続的な勾配の流れを維持します。
- 取得したモーション原型は、DETRスタイルのデコーダで幾何学的に洗練され、Winner-Takes-All の運動学的ガウス混合モデル(GMM)、多様性の正則化、soft-min に基づく終端損失を同時に最適化します。
- Argoverse 2 と Waymo Open Motion の両データセットで競争力のある多峰性予測性能を示し、GitHubでコードも公開されています。




