EfficientPENet:疎なLiDARからリアルタイム深度補完—軽量マルチモーダル融合

arXiv cs.CV / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • EfficientPENetは、疎なLiDAR測定とRGB画像からのリアルタイム深度補完を目的にしており、既存手法の重いバックボーンが組み込み機器で満たせないレイテンシーとモデル規模の課題に取り組みます。
  • 提案手法は2つの分岐からなる構成で、LiDAR側のエンコーダをConvNeXtベースに置き換え、疎性に不変な畳み込みで深度ストリームを扱い、RGB側はImageNetで事前学習したConvNeXtブロックで構成します。
  • 予測はConvolutional Spatial Propagation Network(CSPN)で精緻化され、late fusionとマルチスケールのdeep supervisionを組み合わせて統合されます。
  • 位置情報に配慮した推論時データ拡張により、入力を水平反転した際の座標テンソルを補正し、推論エラーの一貫した低減につなげます。
  • KITTI深度補完ベンチマークでは、EfficientPENetはRMSE 631.94 mm、36.24Mパラメータ、20.51 msのレイテンシー(48.76 FPS)を報告しており、精度を維持しつつBP-Netに対して大きな速度・軽量化の改善を実現しています。