LiFR-Seg:イベント誘導による伝播で実現する、いつでも行える高フレームレート意味セグメンテーション

arXiv cs.CV / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • LiFR-Segは、「Anytime Interframe Semantic Segmentation(いつでも任意時刻のフレーム間意味セグメンテーション)」を導入し、低フレームレート(LFR)動画に依存せずに、1枚の過去RGBフレームと非同期のイベントカメラデータのみで任意の時刻における高密度セグメンテーションを可能にする。
  • 提案手法は、不確実性を考慮したワーピング(ゆがみ)プロセスを通じて、イベントから導出したモーション場と学習された信頼度を駆使し、高ダイナミックなシーンでの特徴劣化を抑えることで、時間方向に深い意味特徴を伝播させる。
  • 時間方向のメモリ注意(テンポラル・メモリ・アテンション)モジュールを用いることで、特に動きやシーン変化がある場合でも、時間を通じた意味的一貫性を維持する。
  • DSECデータセットでの実験(73.82% mIoU)および新しい高周波合成ベンチマーク(SHF-DSEC)により、LFRベースの性能が統計的にHFRの上限に近いことが示される(0.09%以内)。

Abstract

動的環境における高密度意味セグメンテーションは、標準カメラの低フレームレート(LFR)という本質的な制約により、フレーム間に重大な知覚ギャップが生じるため、根本的に制限されています。これを解決するために、私たちは Anytime Interframe Semantic Segmentation(いつでもフレーム間意味セグメンテーション)を提案します。これは、単一の過去RGBフレームと、非同期のイベントデータのストリームのみを用いて、任意の時刻でセグメンテーションを予測する新しいタスクです。このタスクの中核となる課題は、疎で、かつ多くの場合ノイズを含むイベントデータから得られるモーション場を用いながら、高度に動的なシーンにおいて特徴の劣化を抑制しつつ、高密度な意味特徴を頑健に伝播する方法です。私たちは、時系列を通じて深い意味特徴を直接伝播することで、これらの課題に正面から取り組む新しい枠組み LiFR-Seg を提案します。提案手法の中核は、イベント駆動のモーション場と、それによって学習される明示的な信頼度に導かれた、不確実性を考慮したウォーピング(warping)処理です。さらに、時間的メモリアテンションモジュールにより、動的な状況における一貫性が確保されます。提案手法を DSEC データセットおよび、私たちが提供する新しい高周波合成ベンチマーク(SHF-DSEC)で検証します。注目すべきことに、私たちの LFR システムは、対象フレームに完全にアクセスできる HFR の上限(0.09%以内)と統計的に区別できない性能(DSECで73.82% mIoU)を達成しています。本研究は、低フレームレートのハードウェアで頑健かつ高フレームレートな知覚を実現するための新しく効率的なパラダイムを提示します。プロジェクトページ: https://candy-crusher.github.io/LiFR_Seg_Proj/#; コード: https://github.com/Candy-Crusher/LiFR-Seg.git。