RAFT-MSF++:自己教師あり単眼シーンフローのための時間幾何—モーション特徴融合

arXiv cs.CV / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、従来手法に多い「2フレーム入力に限定される」問題を補うための自己教師ありマルチフレーム単眼シーンフロー手法として、RAFT-MSF++を提案します。
  • 深度と3Dシーンフローを同時に推定するために、時間方向の特徴を逐次(リカレントに)融合し、時間的モデリングと頑健性を高めています。
  • 重要な要素として、幾何とモーションが結びついた手掛かりをコンパクトに符号化し、時間的推論のために反復的に更新される「Geometry-Motion Feature(GMF)」を導入します。
  • 隠れ(オクルージョン)への耐性を確保するため、相対位置アテンションで空間的な事前知識を注入し、可視領域から信頼できるモーションを伝播させるオクルージョン正則化モジュールを用います。
  • KITTI Scene FlowベンチマークでSF-allが24.14%となり、ベースラインから30.99%の改善、さらにオクルージョン領域での頑健性向上が示されています。実装コードはGitHubで公開されています。