広告

自律UAV剪定のためのリアルタイム・ブランチ対ツール距離推定:シミュレーションからJetson展開までの5つのDEFOM-Stereoバリアントのベンチマーク

arXiv cs.CV / 2026/3/30

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • 本論文は、ステレオ深度アプローチにより切断ツールから細い枝までのメートル単位の距離をリアルタイム推定することで、安全性が重要なUAVの樹木剪定を対象とする。
  • タスクに特化したUnreal Engine 5の合成データセット(115本の樹木インスタンスに対して5,520枚のステレオペア)で5つのDEFOM-Stereoバリアントを学習し、得られたチェックポイントをNVIDIA Jetson Orin Super 16GBへ展開する。
  • DEFOM-Stereo ViT-Sは合成テストセットで最良の深度精度を達成する一方、Jetson上での実行速度は約2.2 FPSにとどまり、応答性のあるクローズドループのツール制御には不十分である。
  • 新たに導入されたDEFOM-PrunePlus(約21Mパラメータ)は精度とレイテンシのトレードオフを改善し、約3.3 FPSを達成する。さらに、2mの作業距離でのリアルタイム誘導に必要十分と判断される展開性能を示す。
  • より高速な軽量バリアント(DEFOM-PruneStereoおよびDEFOM-PruneNano)はより高いフレームレートを満たすが、深度精度は大幅に劣化する。著者らは、フルキャパシティのモデルに対するsim-to-real(シミュレーションから実世界への移行)を支持するため、実写真でのゼロショット結果を報告している。

Abstract

無人航空機(UAV)による自律的な樹木剪定は、安全性が極めて重要な現実世界のタスクである。搭載された知覚システムは、剪定用ツールから細い樹木の枝までのメートル単位の距離をリアルタイムに推定し、UAVが衝突することなく接近・整列・剪定動作を行えるようにする必要がある。本研究では、最近提案された基盤モデルベースのステレオマッチャであるDEFOM-Stereoの5つの派生モデルを、タスク固有の合成データセットで学習し、チェックポイントをNVIDIA Jetson Orin Super 16 GBにデプロイすることでこの問題に取り組む。学習用コーパスはUnreal Engine 5で構築し、模擬ZED Miniステレオカメラで115本の樹木インスタンスに対して3つの視点から距離2mで5,520組のステレオペアを取得する。高密度EXR深度マップが、細い枝に対して空間的に完全な厳密な教師信号を提供する。合成テストセットでは、DEFOM-Stereo ViT-Sが最良の深度領域精度(EPE 1.74 px, D1-all 5.81%, delta-1 95.90%, depth MAE 23.40 cm)を達成するが、Jetson上での推論速度が約2.2 FPS(1フレームあたり約450 ms)と遅く、応答性の高い閉ループでのツール制御には不十分である。新たに導入したバランス型のバリアント、DEFOM-PrunePlus(約21Mのバックボーン、Jetsonで約3.3 FPS)は、デプロイ可能な精度と速度の最良のトレードオフを提供する(EPE 5.87 px、depth MAE 64.26 cm、delta-1 87.59%)。このフレームレートはリアルタイムな誘導に十分であり、深度精度は2mの運用範囲における安全な枝への接近計画を支える。軽量なDEFOM-PruneStereo(約6.9 FPS)およびDEFOM-PruneNano(約8.5 FPS)は高速に動作する一方で、深度MAEが57 cm超といった形で大幅に精度を犠牲にし、安全な作動のための推定が信頼できないものとなる。実写真に対するゼロショット推論により、フルキャパシティのモデルが枝の幾何形状を保持しており、シム・ツー・リアルの転移が検証される。以上より、DEFOM-PrunePlusは搭載環境での距離推定において最も実用的な精度・レイテンシのバランスを提供することを結論づける。ViT-Sは将来のハードウェアに向けた基準となる。

広告