AI Navigate

DriveFix: 時空間的一貫性を備えた走行シーンの復元

arXiv cs.CV / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • DriveFixは、複数視点の走行シーン復元における時空間的一貫性の欠如に対処するため、時間的依存性とカメラ間の空間的一貫性をモデル化するインタリーブド拡散トランスフォーマを用いる。
  • このフレームワークは歴史的文脈を前提として復元を条件付け、幾何情報を考慮した訓練損失を用いて統一された3Dジオメトリへの整合性を強制し、アーティファクトを低減するとともにビュー間でのテクスチャ伝播を可能にする。
  • Waymo、nuScenes、PandaSetにおける再構成と新規ビュー合成の両方で最先端の性能を達成し、実世界展開における堅牢な4Dワールドモデリングの高い可能性を示している。
  • 本研究は自動運転の知覚における時空間的かつ多視点の共同モデリングの重要性を浮き彫りにし、今後の研究および導入戦略に影響を与える可能性がある。

概要: 拡散事前分布を活用するものを中心とする4Dシーン再構成の最近の進展は、自動運転における新規視点合成に有望であることを示しています。
しかし、これらの手法はしばしばフレームを独立に、またはビューごとに処理するため、時空間的なシナジーの重大な欠如を招きます。
これにより、カメラ間の空間的な不整合とシーケンス全体の時間的ドリフトが生じます。
我々は DriveFix を提案します。運転シーンの時空間的一貫性を保証する新規のマルチビュー復元フレームワークです。
本手法は、時間依存性とカメラ間の空間的一貫性の両方を明示的にモデル化するための、特殊なブロックを備えたインタリーブ拡散トランスフォーマーアーキテクチャを採用します。
歴史的文脈に基づく条件付けと、幾何認識に配慮したトレーニング損失の統合により、DriveFix は復元された視点が統一された3Dジオメトリに準拠するようにします。
これにより、高忠実度のテクスチャを一貫して伝播させ、アーチファクトを大幅に低減します。
Waymo、nuScenes、PandaSet データセットでの広範な評価により、DriveFix が再構成と新規視点合成の両方で最先端の性能を達成することが示されており、現実世界での展開に向けた堅牢な4Dワールドモデリングへの重要な一歩となっています。