Tora3:物理的整合性を備えた軌道誘導型の音声・映像生成

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、従来手法がしばしば物理的・時間的に整合しないという課題に対し、もっともらしい運動–音響の関係を改善することを目的とした、軌道誘導型の音声・映像生成フレームワーク「Tora3」を提案する。
  • Tora3は、物体の軌道を共有する運動学的な事前知識(キネマティック・プライア)として用い、軌道に整合したビデオ運動表現と、軌道駆動の運動学–音響アライメントモジュールにより、視覚的な運動と音響イベントを共同で導く。
  • さらに、ハイブリッドなフローマッチング戦略を提案し、軌道条件付き領域では軌道の忠実性を維持しつつ、軌道の制約が弱い領域では局所的な整合性を保つ。
  • 著者らは、大規模な音声・映像データセット「PAV」を構築し、運動に関係するパターンに焦点を当てるとともに、自動抽出した運動アノテーションによって、運動を意識した学習をより効果的に支援する。
  • 強力なオープンソースのベースラインに対する実験により、Tora3は運動の現実味、運動–音同期、ならびに音声・映像生成全体の品質を向上させることが示される。