要旨: 本論文は、自己教師あり事前学習の観点からカメラ姿勢推定を再検討し、3Dアノテーションを用いる現在の完全教師あり学習の潮流に対する、スケーラブルな代替手段としての逆ダイナミクス事前学習に焦点を当てる。具体的には、大規模な運転動画から得られるGenieに類似した、潜在行動表現を学習するために、逆ダイナミクスモデルと順ダイナミクスモデルを用いる。我々の発想は単純であるが効果的だ。既存手法では、潜在行動をその本来の能力のまま用いる。すなわち、ワールドモデルへの行動条件付けとして、あるいはポリシーネットワークにおけるロボット行動パラメータの代理(プロキシ)として用いる。本手法はLA-Poseと名付けられ、潜在行動特徴をカメラ姿勢推定器への入力として再利用し、限られた高品質な3Dアノテーションの集合で微調整する。この定式化により、フィードフォワードの効率性を維持しつつ、正確で汎用性の高い姿勢予測が可能になる。運転ベンチマークに関する大規模な実験により、LA-Poseはラベル付きデータを桁違いに少なくしながら、最先端手法と競合するだけでなく、さらに優れた性能を達成することが示される。具体的には、WaymoおよびPandaSetのベンチマークにおいて、LA-Poseは最近のフィードフォワード手法よりも姿勢精度で10%超高い。筆者らの知る限り、本研究は姿勢推定に対する逆ダイナミクスの自己教師あり学習の力を初めて実証するものである。
LA-Pose:潜在アクションの事前学習がもたらすポーズ推定
arXiv cs.CV / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、自己教師ありの逆ダイナミクスによる事前学習を用いることで、大量の3D注釈を必要とする完全教師あり学習への依存を減らすポーズ推定手法「LA-Pose」を提案している。
- LA-Poseは、逆・順ダイナミクスモデルにより潜在アクション表現を学習し、その潜在特徴をカメラポーズ推定器の入力として再利用し、少量の高品質な3Dアノテーションで微調整する。
- 推論時のフィードフォワード効率を維持しつつ、ポーズ予測の精度と汎化性の両立を狙っている。
- WaymoやPandaSetを含むドライビングベンチマークでの実験では、LA-Poseが競争力、場合によっては最先端手法を上回る性能を示し、最近のフィードフォワード手法に対して10%以上のポーズ精度向上を、ラベル付きデータ量を桁違いに抑えて達成している。
- 著者らは、逆ダイナミクスの自己教師あり学習がポーズ推定に有効であることを示した最初の試みだと主張している。




