AI Navigate

3D物体検出のための Prediction-as-Perception(PAP)フレームワーク

arXiv cs.CV / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、予測と知覚を融合する Prediction-As-Perception(PAP)フレームワークを提案し、3D物体知覚タスクにおける知覚精度を向上させる。
  • PAPは連続するフレーム情報上で動作する2つの主要モジュール(予測と知覚)を用い、予測モジュールが将来の位置を予測して次のフレームの知覚モジュールを導く。
  • 予測された位置は次のフレームの知覚のクエリとして用いられ、知覚結果は反復的に予測器へフィードバックされ、生体模倣的なループを形成する。
  • UniADモデルを用いてnuScenesデータセットで評価したところ、PAPはターゲット追跡精度を約10%、推論速度を約15%向上させ、効率の向上を示した。
  • この研究は、このような設計が計算資源の消費を抑えつつ精度を高め、自動運転知覚システムに潜在的な恩恵をもたらすと主張している。

要約:人間は世界を観察する際に、予測と知覚を組み合わせます。急速に動く鳥や昆虫に直面すると、次の位置を予測し、その場所に視線を集中させることでしか彼らをはっきりと知覚できません。このことに触発され、本論文は Prediction-As-Perception(PAP)フレームワークを提案し、予測と知覚のアーキテクチャを3D物体知覚タスクに統合することで、モデルの知覚精度を高めます。PAPフレームワークは、主に連続したフレーム情報を入力として利用する、予測と知覚という2つの主要モジュールから成り立っています。まず、予測モジュールは現在のフレームの知覚結果に基づき、自車と周囲の交通参加者の潜在的な将来位置を予測します。これらの予測位置は、次のフレームの知覚モジュールへのクエリとして渡されます。知覚された結果は、反復的に予測モジュールへフィードバックされます。私たちは nuScenes データセット上でエンドツーエンドモデル UniAD を用いて PAP 構造を評価しました。結果は、PAP 構造が UniAD のターゲット追跡精度を10%向上させ、推論速度を15%向上させることを示しています。これは、この生体模倣的設計が知覚モデルの効率と精度を大幅に高めつつ、計算資源の消費を削減することを示唆しています。
返却形式: {"translated": "翻訳されたHTML"}