要旨: 動的な点群の事前学習は、いまだにマスク付き再構成目的が主流です。しかし、これらの目的には2つの重要な制約があります。既存手法は、デコーダの位置埋め込みとして教師データのチューブ中心を注入しますが、その結果、時空間的な位置のリークが生じます。さらに、それらはフレーム間運動を決定論的な代理ターゲットで教師します。これにより、多峰性のある軌跡の不確実性が条件付き平均へと潰され、分布構造が体系的に捨て去られてしまいます。これらの制約に対処するために、動的点群のための統一された自己教師あり学習フレームワークであるDiffusion Masked Pretraining(DiMP)を提案します。DiMPは、位置推論と運動学習の両方に拡散モデリングを導入します。まず、前向き拡散ノイズをマスクされたチューブ中心のみに適用し、その後、可視の時空間コンテキストからクリーンな中心を予測します。これにより、位置リークを除去しつつ、可視座標をクリーンな時間的アンカーとして保持できます。DiMPはまた、点ごとのフレーム間変位の教師信号を、デコードされた表現に条件付けられたDDPMのノイズ予測目的として言い換えます。この設計により、エンコーダは単一の決定論的推定に潰し込むのではなく、変分的な代理のもとであり得る運動の条件付き分布全体を目標とするよう駆動されます。大規模な実験により、DiMPがバックボーン単体と比べて下流タスクの精度を一貫して改善することを示します。オフラインのアクションセグメンテーションで絶対的な改善が11.21%、因果的制約付きのオンライン推論では13.65%です。コードは https://github.com/InitalZ/DiMP.git で利用可能です。
動的ポイントクラウドの拡散マスク付き事前学習
arXiv cs.CV / 2026/5/6
📰 ニュースSignals & Early TrendsModels & Research
要点
- この論文は、動的ポイントクラウドの事前学習が依然としてマスク付き再構成目的に支配されている一方で、既存手法には時空間的な位置リークと、決定論的すぎるモーション教師信号という2つの主要な制限があると指摘している。
- 提案手法は Diffusion Masked Pretraining(DiMP)で、拡散モデルを位置推定とモーション学習の両方に導入し、統一的な自己教師ありフレームワークとして構成している。
- DiMPは前向き拡散のノイズ付与をマスクされたチューブ中心にだけ適用し、見えている時空間コンテキストからクリーンな中心を予測することで、位置リークを取り除きつつ可視座標を時間アンカーとして保持する。
- モーション学習では、フレーム間変位を決定論的ターゲットで教師する代わりに、DDPMのノイズ予測目的を用い、単一の推定値に潰れずに「妥当な動きの条件付き分布全体」を学習するようエンコーダを促している。
- 実験ではバックボーン単体より下流性能が一貫して向上し、オフラインのアクションセグメンテーションで絶対改善11.21%、因果制約付きのオンライン推論で絶対改善13.65%を示し、コードもGitHubで公開されている。



