PiLoT:UAVベースの自車両および目標のジオローカライゼーションのための、ニューラル・ピクセルから3Dへの登録

arXiv cs.CV / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • PiLoTは、ライブ映像ストリームをジオ参照された3D地図へ直接登録し、自車姿勢と目標のジオローカライゼーションの両方を推定する、統一的なUAVローカライゼーションの枠組みである。GNSSへの依存や個別のアクティブセンサに頼る度合いを低減する。
  • 双方向スレッド・エンジン(Dual-Thread Engine)により、地図レンダリングとローカライゼーション中核を分離してレイテンシを低く保ちつつドリフトを回避し、リアルタイム性能と精度を向上させる。
  • 正確な幾何学的注釈(カメラ姿勢と深度マップ)を備えた大規模な合成トレーニングデータセットを導入し、シミュレーションから実世界データへの汎化をゼロショットで可能にする軽量ネットワークを学習する。
  • 急激なUAVの運動下でも頑健な収束を維持するために、Joint Neural-Guided Stochastic-Gradient Optimizer(JNGO)を提案する。
  • 複数の公開ベンチマークおよび新たに収集したベンチマークでの実験により、最先端の性能を報告しつつ、NVIDIA Jetson Orin上で25 FPS超を達成する。コードとデータセットはGitHubで公開されている。

Abstract

UAVベースの自機および目標のジオローカライゼーション(位置特定)に取り組む統一的な枠組みであるPiLoTを提案します。従来の手法では、自己姿勢推定のためにGNSSとVisual-Inertial Odometry(VIO)を融合する分離されたパイプラインに依存し、また目標のローカライゼーションにはレーザー距離計のような能動センサを用いていました。しかし、これらの方法はGNSSが利用できない環境で失敗しやすく、さらに高いハードウェアコストと複雑さを伴います。PiLoTは、ジオ参照された3Dマップに対してライブ映像ストリームを直接レジスタ(整合)することで、このパラダイムを打ち破ります。頑健で正確、かつリアルタイムな性能を実現するために、次の3つの主要な貢献を導入します。1) マップの描画を中核となるローカライゼーション処理スレッドから切り離すDual-Thread Engineにより、低遅延を維持しつつ、ドリフトのない精度を確保すること。2) カメラ姿勢や深度マップといった精密な幾何学的注釈を備えた大規模な合成データセット。このデータセットにより、シミュレーションから実データへゼロショットで汎化できる軽量ネットワークの学習が可能になります。3) Joint Neural-Guided Stochastic-Gradient Optimizer(JNGO)により、激しい運動があっても頑健な収束を達成すること。公開ベンチマークと新たに収集したベンチマークの包括的な評価により、PiLoTは最先端手法を上回り、NVIDIA Jetson Orinプラットフォーム上で25 FPS以上で動作することを示します。コードとデータセットは以下で利用できます: https://github.com/Choyaa/PiLoT。