要旨: 現実的でシミュレーションに適した3Dアセットを作成することは、自動運転研究および仮想環境の構築において重要です。しかし、既存の3D車両生成手法は、多くの場合、現実世界の分布との間に大きなドメインギャップを持つ合成データで学習されています。そのため生成モデルには恣意的なポーズや未定義のスケールが現れやすく、運転シーンに統合した際の視覚的一貫性が低下します。本論文では、画像のみの教師あり情報(image-only supervision)を用いて、実世界の運転画像から3D車両を復元することを学習する新しい枠組みUnposed-to-3Dを提案します。提案手法は2段階で構成されます。第1段階では、既知のカメラパラメータを持つポーズ付き画像を用いて、画像から3D復元を行うネットワークを学習します。第2段階では、カメラの教師信号を取り除き、カメラ予測ヘッドを用いて、ポーズなし画像からカメラパラメータを直接推定します。推定されたポーズは微分可能レンダリングに利用され、自己教師ありのフォトメトリックなフィードバックを提供することで、ポーズなし画像だけから3D形状を学習できるようにします。シミュレーションに適した状態を確実にするため、さらに実世界のサイズ情報を予測するスケール対応モジュールを導入します。また、調和化モジュールにより、生成された車両を目標の運転シーンに適応させ、照明や外観を一貫させます。大規模な実験により、Unposed-to-3Dが実世界の画像から、現実的でポーズが一貫した、かつ調和された3D車両モデルを効果的に復元できることが示され、運転シーンのシミュレーションやデジタルツイン環境のための高品質アセット作成に向けたスケーラブルな道筋を提供します。
Unposed-to-3D:実世界の画像からシミュレーション対応車両を学習する
arXiv cs.CV / 2026/4/22
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、合成データで学習した既存の3D車両生成手法が実世界の分布と一致しにくい「ドメインギャップ」を縮めることに取り組みます。
- Unposed-to-3Dは画像のみの監督でシミュレーションに適した3D車両モデルを復元するために、(既知のカメラパラメータを持つ)ポーズ付き画像で学習する段階と、カメラ監督を外して非ポーズ画像から推定する段階の2段階パイプラインを用います。
- 非ポーズ画像からの推定にはカメラ予測ヘッドを使い、微分可能レンダリングによる自己教師ありのフォトメトリックフィードバックで3D形状の学習を促します。
- シミュレーションやデジタルツインでそのまま使える出力にするため、現実スケールを予測するスケール対応モジュールと、対象の走行シーンに合わせて照明や見た目を整える調和(ハーモナイズ)モジュールを追加します。
- 実験結果から、Unposed-to-3Dは現実画像から、リアルでポーズ整合が取れ、見た目もシーンに馴染む3D車両を生成でき、合成データで訓練された従来手法よりも走行シーンへの統合品質が高いことが示されています。


