Abstract
シーンフロー推定のための自己教師ありフィードフォワード手法はリアルタイム効率を提供しますが、2フレーム間の点対応に基づく教師信号は信頼性が低く、遮蔽(オクルージョン)下ではしばしば破綻します。複数フレームの教師信号は、過去フレームからの運動手がかりを取り込むことで、より安定した誘導を与える可能性があります。しかし2フレームの目的関数を素朴に拡張するだけでは効果がありません。というのも、点対応はフレーム間で急激に変化し、一貫性のない信号が生成されるからです。本論文では、時間的に一貫した教師信号をマイニングすることで、フィードフォワードモデルに対する複数フレームの教師学習を可能にする TeFlow を提案します。TeFlow は、複数フレームにまたがって構築された候補プールから抽出される、最も時間的に一貫した運動手がかりを集約することで、信頼できる教師信号を形成する時間的アンサンブリング戦略を導入します。大規模な評価により、TeFlow が自己教師ありフィードフォワード手法における新たな最先端(SOTA)を確立し、困難な Argoverse 2 および nuScenes データセット上で最大 33\% の性能向上を達成することを示します。本手法は主要な最適化ベース手法と同等の性能を示しつつ、処理速度は 150 倍向上します。コードは、学習済みモデル重みとともに https://github.com/Kin-Zhang/TeFlow で公開されています。