TrajLoom:ビデオからの密な将来軌跡生成

arXiv cs.CV / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • TrajLoomは、観測されたビデオの文脈と過去の軌跡から、将来の密な点軌跡(可視性を含む)を予測するためのarXivフレームワークであり、モーション予測および制御可能なビデオ生成を目標としています。
  • 本手法は3つの主要モジュールを組み合わせています。空間的なバイアスを抑えるGrid-Anchor Offset Encoding、マスク付き再構成と整合性正則化によりコンパクトな時空間潜在空間を学習するTrajLoom-VAE、そして境界の手がかりとフローマッチングを用いて潜在空間上で将来の軌跡を生成し、安定性のためにKステップのオンポリシー微調整を行うTrajLoom-Flowです。
  • 本論文では、実ビデオと合成ビデオの両方を対象に、ビデオ生成ベンチマークと整合した標準化された評価セットアップのもとでカバーする統一ベンチマークTrajLoomBenchを導入しています。
  • 従来の最先端アプローチと比べて、TrajLoomは予測ホライゾンを24フレームから81フレームへ拡張しつつ、複数のデータセットでモーションの現実味と安定性を向上させます。また、その出力は後段のビデオ生成や編集に直接利用できます。
  • コード、モデルのチェックポイント、データセットはプロジェクトのWebサイトを通じて公開されており、再現やさらなる研究開発が可能です。

要旨: 将来の動きを予測することは、動画理解および制御可能な動画生成において重要です。高密度な点の軌跡は、コンパクトで表現力の高い運動表現ですが、観測された動画からそれらの将来の進化をモデル化することは依然として困難です。私たちは、過去の軌跡と動画の文脈から、将来の軌跡と可視性を予測する枠組みを提案します。提案手法は3つの要素から成ります。(1) Grid-Anchor Offset Encoding:各点をそのピクセル中心のアンカーからのオフセットとして表現することで、位置依存のバイアスを低減します。(2) TrajLoom-VAE:マスク付き再構成と時空間的一貫性正則化器により、高密度軌跡に対するコンパクトな時空間潜在空間を学習します。(3) TrajLoom-Flow:境界の手がかりと、安定したサンプリングのための on-policy K ステップの微調整を用い、フロー・マッチングによって潜在空間上で将来の軌跡を生成します。さらに、TrajLoomBench を導入します。これは、動画生成ベンチマークに整合する標準化されたセットアップにより、実動画と合成動画の両方をまたぐ統一ベンチマークです。最先端手法と比べて、私たちの手法は予測ホライゾンを24フレームから81フレームへ拡張し、データセット全体で動きの現実味と安定性を向上させます。予測された軌跡は、下流の動画生成および編集を直接支援します。コード、モデルのチェックポイント、データセットは https://trajloom.github.io/ で利用可能です。