DesertFormer: 自動運転システムにおけるオフロード砂漠地形分類のためのトランスフォーマーベースのセマンティックセグメンテーション

arXiv cs.CV / 2026/3/19

📰 ニュースModels & Research

要点

  • DesertFormerはSegFormer B2バックボーンを用いて砂漠地形のセマンティックセグメンテーションを実行し、オフロード環境での自律走行ナビゲーションにおける安全性を考慮した経路計画を実現する。
  • 地形は10の生態学的に意味のあるカテゴリに分類され(Trees、Lush Bushes、Dry Grass、Dry Bushes、Ground Clutter、Flowers、Logs、Rocks、Landscape、Sky)、4,176枚の画像、512×512のデータセットで訓練されている。
  • 本モデルは平均IoUが64.4%、ピクセル精度が86.1%を達成し、DeepLabV3 MobileNetV2をベースラインとした場合に24.2ポイントの絶対的改善を示している。
  • 著者らは主要な混乱パターンを特定する失敗分析を提供し、クラス重み付き訓練とコピー&ペースト拡張を含む軽減策を提案するとともに、GitHub上でコード、チェックポイント、および対話的推論ダッシュボードを公開している。

要約: 信頼性の高い地形認識は、構造化されていないオフロード環境における自律ナビゲーションの基本的要件です。砂漠の風景は、地形カテゴリ間の低色彩コントラスト、極端な照明のばらつき、そして標準の道路シーン分割モデルの前提に反するまばらな植生が原因で、独特の課題を呈します。DesertFormer は SegFormer B2 を階層的 Mix Transformer (MiT-B2) バックボーンとした、オフロード砂漠地形解析のセマンティックセグメンテーションパイプラインです。システムは地形を10の生態学的に意味のあるカテゴリ -- 木々、緑豊かな茂み、乾燥した草、乾燥した茂み、地表のごちゃつき、花、丸太、岩、風景、そして空 -- に分類し、地上ロボットと自動運転車の安全性を考慮した経路計画を可能にします。512×512解像度の4,176枚の注釈付きオフロード画像を用いて訓練された DesertFormer は、平均Intersection-over-Union (mIoU) 64.4%、ピクセル精度 86.1% を達成し、DeepLabV3 MobileNetV2 をベースラインとした場合の絶対的改善として +24.2%(41.0% mIoU)を示します。さらに、主な混乱パターンを特定する体系的な故障分析を追加し -- Ground Clutter to Landscape および Dry Grass to Landscape -- を明らかにし、希少な地形カテゴリに対してクラス重み付き学習とコピー&ペースト拡張を提案します。コード、チェックポイント、インタラクティブな推論ダッシュボードは https://github.com/Yasaswini-ch/Vision-based-Desert-Terrain-Segmentation-using-SegFormer に公開されています。