広告

PhiSat-2画像からの単眼建物高さ推定:データセットと手法

arXiv cs.CV / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、単眼建物高さ推定に向けてPhiSat-2の光学画像を評価し、このデータソースに対する系統的評価の先行ギャップに取り組む。
  • 世界26都市から得られた9,475組の位置合わせ済みの画像—ラベル・パッチ対からなる、PhiSat-2-Heightデータセット(PHDataset)を導入する。
  • 提案するTwo-Stream Ordinal Network(TSONet)は、フットプリント(建物の輪郭)領域のセグメンテーションと高さ推定を共同で行い、Cross-Stream Exchange Module(CSEM)やFeature-Enhanced Bin Refinement(FEBR)などのモジュールを用いる。
  • PHDatasetでの実験により、TSONetが全体として最良の性能を示し、最強の競合手法と比べてMAEとRMSEをそれぞれ13.2%および9.7%低減し、IoUとF1スコアをそれぞれ14.0%および10.1%向上させることを示す。
  • アブレーション実験および追加分析により、提案手法のフットプリントに着目した特徴の相互作用と順序(ordinal)に基づく洗練が有効であること、また単眼設定における高さに関する曖昧な手がかりをPhiSat-2の解像度とマルチスペクトル・バンドが緩和することを確認する。

要旨: 光学画像からの単眼による建物高さ推定は、都市形態の特性評価に重要ですが、曖昧な高さの手がかり、大きな都市間での建物形態のばらつき、そして建物高さの長い裾(ロングテール)分布のために、依然として困難です。PhiSat-2は、全球カバー、4.75 mの空間解像度、そして7バンドのスペクトル観測を備えることから、この課題に対する有望なオープンアクセスのデータソースですが、その潜在能力は体系的に評価されていません。このギャップを埋めるために、我々はPhiSat-2-Heightデータセット(PHDataset)を構築し、Two-Stream Ordinal Network(TSONet)を提案します。PHDatasetには、世界26都市からの9,475組の整合(co-registered)画像-ラベルのパッチ対が含まれています。TSONetは、フットプリント(建物の輪郭領域)セグメンテーションと高さ推定を共同でモデル化し、フットプリントに注意した特徴の相互作用と順序(オーディナル)高さの精緻化のために、Cross-Stream Exchange Module(CSEM)およびFeature-Enhanced Bin Refinement(FEBR)モジュールを導入します。PHDatasetに対する実験の結果、TSONetは全体として最良の性能を達成し、MAEとRMSEをそれぞれ13.2%および9.7%低減し、最も強力な競合結果に対してIoUとF1-scoreをそれぞれ14.0%および10.1%向上させます。アブレーション研究により、CSEM、FEBR、ならびに順序回帰とフットプリント支援の併用の有効性がさらに検証されます。追加分析では、PhiSat-2が、建物に関連する空間的な詳細と多スペクトル観測のバランスの良い組み合わせによって、単眼の建物高さ推定に有益であることが示されています。全体として、本研究は単眼建物高さ推定におけるPhiSat-2の可能性を確認し、将来の研究のための専用データセットと効果的な手法を提供します。

広告