SS3D:Web動画からのエンドツーエンド自己教師あり3D推定

arXiv cs.CV / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、SfMベースの自己教師ありの手がかりを用いて、単眼のWeb動画からフィードフォワード型の3D推定を学習するエンドツーエンド事前学習パイプライン「SS3D」を提案しています。
  • SS3Dは1回のフォワードパスで、深度・自己運動(ego-motion)・カメラの内パラメータ(intrinsics)を同時に予測し、学習を安定化するために「intrinsics-first」の2段階スケジュールを採用しています。
  • 自由度の高いWeb動画に対してSfM自己教師ありを適用する難しさ(マルチビューの観測可能性が弱いことや、データの異質性が強いこと)に対し、多視点の信号プロキシ(MVS)をフィルタリングとカリキュラムサンプリングに用いています。
  • さらに、エキスパートの学習を単一の学生モデルへ蒸留し、YouTube-8Mで(フィルタリング後に)約1億フレームを事前学習することで、既存の自己教師ありベースラインよりもゼロショット転移と微調整性能が向上することを示しています。
  • 事前学習済みチェックポイントとコードを公開しており、再現や発展的な研究を後押しします。