AI Navigate

GATS: ガウシアンを考慮した時間的スケーリング・トランスフォーマーによる不変な4D時空点群表現

arXiv cs.CV / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 実験結果は、MSR-Action3Dで精度が+6.62%、NTU RGBDで精度が+1.4%、Synthia4DでmIoUが+1.8%という顕著な向上を示しており、Transformerベースのアプローチよりも精度、頑健性、スケーラビリティが改善されている。

概要: 4D点群動画を理解することは、知的エージェントが動的環境を知覚できるようにするために不可欠です。しかし、異なるフレームレート間の時間スケールバイアスと、不規則な点群における分布的不確実性は、統一的で頑健な4Dバックボーンを設計することを極めて困難にします。既存のCNNまたはTransformerベースの手法は、受容野が限られているか、二次計算量の制約により制約され、これらの暗黙の歪みを見過ごしています。 この問題に対処するため、分布的不整合と時間的側面の両方を明示的に解決する新しい二重不変性フレームワークを提案します。名称は \textbf{Gaussian Aware Temporal Scaling (GATS)} です。 提案された \emph{不確実性を考慮したガウス畳み込み(UGGC)} は、局所的なガウス統計量と不確実性を考慮したゲーティングを点畳み込みに組み込み、密度変動、ノイズ、および遮蔽の下で頑健な近傍集約を実現します。 並行して、 \emph{時系列スケーリング・アテンション(TSA)} は、時間距離を正規化する学習可能なスケーリング係数を導入し、フレーム分割の不変性と異なるフレームレート間での一貫した速度推定を保証します。 これらの2つのモジュールは補完的です: 時間スケーリングは Gaussian 推定の前に時間間隔を正規化し、ガウスモデリングは不規則な分布に対する頑健性を高めます。 主流のベンチマークである MSR-Action3D(+6.62% 精度)、NTU RGBD(+1.4% 精度)、および Synthia4D(+1.8% mIoU)で顕著な性能向上を示しており、Transformer ベースの対応手法と比較して、精度、頑健性、およびスケーラビリティにおいて優れた、より効率的で原理的な不変な4D点群動画理解のパラダイムを提供します。