TS-Attn:多イベント動画生成のための時間方向に分離可能な注意機構

arXiv cs.CV / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この論文は、複数の連続した行動を含む複雑な時間的記述から、質の高いかつ一貫性のある動画を生成する未解決課題に取り組んでいます。
  • 既存手法の主な失敗要因として、動画内容とプロンプト間の時間的ミスアラインメント、そして動きに関わる視覚要素とそのテキスト条件の注意の結合が衝突する点を挙げています。
  • 提案手法TS-Attnは、学習不要の注意機構であり、注意分布を動的に再配置して、マルチイベントにおける時間的な認識と全体的な整合性を高めます。
  • TS-Attnは複数の事前学習済みテキストto動画モデルに統合でき、推論時間は約2%増にとどめつつ、StoryEval-BenchでWan2.1-T2V-14Bは33.5%、Wan2.2-T2V-A14Bは16.4%のスコア向上を示しています。
  • 画像to動画のマルチイベント生成にも対応したプラグアンドプレイ設計で、コードはGitHubで公開されています。