RAFT-MSF++：自己教師あり単眼シーンフローのための時間幾何—モーション特徴融合

arXiv cs.CV / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、従来手法に多い「2フレーム入力に限定される」問題を補うための自己教師ありマルチフレーム単眼シーンフロー手法として、RAFT-MSF++を提案します。
深度と3Dシーンフローを同時に推定するために、時間方向の特徴を逐次（リカレントに）融合し、時間的モデリングと頑健性を高めています。
重要な要素として、幾何とモーションが結びついた手掛かりをコンパクトに符号化し、時間的推論のために反復的に更新される「Geometry-Motion Feature（GMF）」を導入します。
隠れ（オクルージョン）への耐性を確保するため、相対位置アテンションで空間的な事前知識を注入し、可視領域から信頼できるモーションを伝播させるオクルージョン正則化モジュールを用います。
KITTI Scene FlowベンチマークでSF-allが24.14%となり、ベースラインから30.99%の改善、さらにオクルージョン領域での頑健性向上が示されています。実装コードはGitHubで公開されています。

Dev.to

Dev.to

Dev.to

Dev.to

Reddit r/LocalLLaMA