広告

E-TIDE:イベント系列から高速かつ構造を維持するモーション予測を行う手法

arXiv cs.RO / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • E-TIDEは、大規模な事前学習を必要とせずに、過去のイベント・カメラ系列から将来のイベント・テンソル表現を予測するための、新しい軽量なエンドツーエンド学習モデルである。
  • 本手法はTIDEモジュールを用い、大規模カーネルの時間混合と、活動(アクティビティ)に応じたゲーティングを組み合わせることで、疎なイベント・テンソルに対する時間的依存関係を効率よく捉える。
  • 標準的なイベントベースのデータセットでの実験では、モデルサイズを大幅に小さくしつつ、学習要件も削減しながら競争力のある性能が示されている。
  • 本研究は、厳しいレイテンシとメモリ予算を前提とした、リソース制約下でのリアルタイム展開を対象とし、将来のセマンティックセグメンテーションや物体追跡といった下流タスクをサポートする。
  • イベント系列からの構造を維持するモーション予測に焦点を当てることで、重いバックボーンや広範な事前学習を用いることが多い従来の最先端手法の限界に対処する。

Abstract

イベントベースカメラは、画素ごとの輝度変化を非同期ストリームとして捉え、スパースかつ時間的に高精度なデータを生成します。従来のフレームベースセンサと比較して、電力消費を大幅に抑えながら高速ダイナミクスを捉える点で大きな利点があります。過去の観測から将来のイベント表現を予測することは重要な課題であり、将来のセマンティックセグメンテーションやオブジェクト追跡などの下流タスクを、未来のセンサ計測にアクセスすることなく可能にします。近年の最先端アプローチは高い性能を達成していますが、多くの場合、計算負荷の大きいバックボーンに依存しており、場合によっては大規模な事前学習にも依存しているため、リソースが制約された状況での適用が制限されます。本研究では、大規模な事前学習を必要とせずに効率よく動作するよう設計した、イベントテンソル予測のための軽量でエンドツーエンド学習可能なアーキテクチャであるE-TIDEを提案します。我々の手法は、スパースなイベントテンソルに対する効率的な時空間インタラクション設計に動機づけられたTIDEモジュール(Temporal Interaction for Dynamic Events)を用い、大きなキーネルによる混合と、活動(アクティビティ)に応じたゲーティングによって時間的依存を捉えつつ、計算量の低さを維持します。標準的なイベントベースデータセットでの実験により、本手法はモデルサイズと学習要件を大幅に削減しながら、競争力のある性能を達成することが示されました。そのため、厳しいレイテンシとメモリ予算のもとでのリアルタイム実運用に適しています。

広告