3D 単一物体追跡のための時間的整合性を備えた長期メモリ

arXiv cs.CV / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 複数の 3D-SOT ベンチマークにおける新たな最先端の結果と、単一の RTX 4090 GPU 上でリアルタイム推論を 42 FPS で実現した性能を報告しており、コードは GitHub で公開されている。

Abstract

3Dシングルオブジェクトトラッキング(3D-SOT)は、最初のフレームで与えられた3Dバウンディングボックスに基づき、LiDAR点群の時系列列においてターゲット物体を局在化することを目的としています。近年の手法では、ターゲット物体の事前に観測された特徴を活用するためにメモリベースのアプローチが採用されていますが、対象は直近のいくつかのフレームに限られています。本研究は、時間的な特徴の不整合が深刻であり、メモリのオーバーヘッドが過大であるため、これらの手法の時間的能力が本質的に短期コンテキストに制約されていることを明らかにします。そこで本研究では、長期3D-SOTのための堅牢なフレームワークであるChronoTrackを提案し、長期メモリを通じて多様なターゲット特徴を効率的に集約しながら、時間的特徴の一貫性を維持します。学習可能なメモリトークンのコンパクトな集合に基づき、ChronoTrackは、2つの相補的な目的関数によって長期情報を活用します。それらは時間的一貫性損失と、メモリ循環的一貫性損失です。前者は、フレーム間での特徴整合を強制し、時間的ドリフトを緩和して、提案する長期メモリの信頼性を向上させます。並行して後者は、メモリポイント・メモリの循環ウォークを通じて、系列全体で観測された多様で識別的なターゲット表現を、それぞれのトークンがエンコードすることを促します。その結果、ChronoTrackは複数の3D-SOTベンチマークで新たな最先端性能を達成し、コンパクトなメモリによる長期ターゲットモデリングの有効性を示しました。さらに、単一のRTX 4090 GPUで42 FPSの実時間速度で動作します。コードは https://github.com/ujaejoon/ChronoTrack で公開されています