GOLD-BEV：動的シーンの高密度セマンティックBEVマッピングのための地上データと空中データ

arXiv cs.CV / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、GOLD-BEVという枠組みを提案し、時間同期した空中映像を訓練時の教師として用い、自己中心（エゴ）センサーから動的エージェントを含む高密度セマンティックBEV地図を学習します。
BEVと空中クロップを整合させた「直感的な目標空間」を作ることで、高い手作業コストを抑えつつ、エゴのみのBEVラベリングに伴う曖昧さを回避します。
空中-地上の厳密な同期により、移動する交通参加者をより確実に教師でき、非同期な上空ソースにありがちな時間的不整合を軽減します。
大規模な高密度ターゲットのために、ドメイン適応した空中教師（teacher）でBEVの擬似ラベルを生成し、BEVセグメンテーションを共同学習します（解釈性のために擬似空中BEV再構成を任意で追加）。
さらに、エゴセンサーから擬似空中BEV画像を合成することで、人手アノテーションを軽量化し、未ラベル走行データに対して不確実性を考慮した擬似ラベリングも可能にします。

要旨: 幾何学的に一貫した、シーン中心の表現において道路シーンを理解することは、計画および地図作成にとって重要です。本研究では、時間同期された航空画像のみを訓練時の教師として用い、自己中心（ego-centric）のセンサーから、動的エージェントを含む高密度な鳥瞰図（BEV）セマンティック環境マップを学習する枠組みGOLD-BEVを提案します。BEVに整列した航空の切り出しは直感的な目標空間を提供し、最小限の手作業で密なセマンティック注釈を可能にすると同時に、自己中心のみのBEVラベリングに伴う曖昧さを回避します。決定的には、航空—地上の厳密な同期により、真上からの観測で移動する交通参加者を教師でき、同期されていない真上視点ソースに固有の時間的不整合を緩和できます。スケーラブルな高密度目標を得るために、ドメイン適応した航空教師を用いてBEVの疑似ラベルを生成し、解釈可能性のために、任意で疑似航空BEV再構成を伴う形でBEVセグメンテーションを共同学習します。最後に、航空のカバレッジを超えて、自己センサーから疑似航空BEV画像を合成することを学習します。これにより、軽量な人手による注釈と、ラベル未付与の走行データに対する不確実性を考慮した疑似ラベリングが可能になります。