FSKD：LiDAR-to-RGBI知識蒸留による単眼フォレスト構造推定

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、コストの高い航空レーザ（airborne LiDAR）から通常導出される高解像度の森林構造指標を推定するために、RGBIのみのSegFormer学生モデルを学習するLiDAR-to-RGBI知識蒸留フレームワークであるFSKDを提案する。
RGBI画像と、LiDAR由来の平面（planar）指標および垂直プロファイルをクロスアテンションで融合するマルチモーダル教師を用いることで、学生は地理的に異なるテストタイルに対して、最先端のゼロショットのキャノピー高さモデル（CHM）性能を達成する。
ドイツ・ザクセン州の面積384 km²（GSD 20 cm）のデータにおいて、本手法はHRCHM/DACベースラインに対して強い改善を報告しており（MAE減少29〜46%）、CHMに加えてPAI、そして葉量多様性（FHD）を同時に出力する。これは、多くの単眼CHMのみのアプローチを超える拡張である。
アブレーションにより、マルチモーダル融合はRGBIのみの学習に比べて精度を10〜26%向上させること、また非対称蒸留と適切なモデル容量が最良の結果に重要であることが示される。
本手法は時間的な不一致（例：冬季LiDARと夏季RGBI）に耐性があり、デジタルツインや国レベルのオルソフォト型ワークフローに向けた、よりスケーラブルな運用モニタリングを支援する。ただし、PAI/FHDの精度は地域依存であり、局所的なキャリブレーションの恩恵を受ける。

要旨：個々の樹木スケールにおける、非常に高解像度（VHR）の森林構造データは、炭素・生物多様性・生態系モニタリングに不可欠である。しかし、航空機搭載LiDARは、キャノピー高モデル（CHM）、植物面積指数（PAI）、葉高多様性（FHD）といった森林構造指標の参照手段であるにもかかわらず、高価であり、また取得頻度も低いままである。我々はFSKDを提案する。これは、LiDARからRGB-近赤外（RGBI）へ行う知識蒸留（KD）フレームワークであり、多モーダル教師がクロスアテンションによりRGBI画像とLiDAR由来の平面メトリクスおよび垂直プロファイルを融合し、RGBIのみのSegFormer学生がこれらの出力を再現する。ドイツ・ザクセン州の森林384 $km^2$ （地上サンプリング間隔（GSD）20 cm）で学習し、地理的に異なる8つのテストタイルで評価した結果、学生は最先端（SOTA）のゼロショットCHM性能（MedAE 4.17 m、 $R^2$ =0.51、IoU 0.87）を達成し、HRCHM/DACのベースラインをMAEにおいて29--46%上回る（5.81 m 対 8.14--10.84 m）。さらに、相関係数はより強く（0.713 対 0.166--0.652）、改善が確認される。アブレーションにより、多モーダル融合はRGBIのみでの学習に対して性能を10--26%向上させ、また適切なモデル容量を伴う非対称蒸留が重要であることが示される。本手法はCHM、PAI、FHDを同時に予測する。これは、現在の単眼CHM推定器では提供されていないマルチメトリクス能力である。一方でPAI/FHDの転移は地域依存であり、局所的なキャリブレーションの恩恵を受ける。さらに、本フレームワークは時間的な不一致（冬のLiDAR、夏のRGBI）下でも有効であり、厳密な同時取得の制約を取り除いて、Digital Twin Germanyや国家的なデジタルオルソフォト（Digital Orthophoto）プログラムのようなワークフローに対する、スケーラブルな20 cmの運用モニタリングを可能にする。