時空間の効率的な植生ピクセル分類を実現するビジョントランスフォーマー

arXiv cs.CV / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、UAVや近接撮影カメラによる画像を用いた植物フェノロジー(生物の周期的なライフサイクルイベント)の経時解析において、植生ピクセルを時系列で分類する際の計算負荷の課題を扱っています。
  • 時空間的な植生ピクセル分類のために最適化したVision Transformer(ViT)手法を提案し、ブラジルのセラード(Cerrado)地域の2つのデータセットで検証しました。
  • 正規化、スペクトル配置、境界処理、空間コンテキスト窓の形状と大きさ、トークナイズ戦略、位置埋め込み、特徴集約といった7つの設計要素について、包括的なアブレーション研究を行っています。
  • 実験結果では、ViTが計算効率を大きく改善し、FLOPsを約1桁(order of magnitude)削減しながら、時系列の長さが増えてもパラメータ複雑度を一定に保てることが示されています。
  • 本研究は、長い時系列に対してスケールが悪いCNNのベースラインと比べて、ViTが資源制約のあるフェノロジーモニタリングに対するスケーラブルな解決策であると結論づけています。