AI Navigate

イベント駆動型ビデオ生成

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

要点

  • 本論文は、フレーム優先デノイジングをテキストから動画へのモデルにおける相互作用による幻覚の主要な源として特定し、イベント駆動型ビデオ生成(EVD)を、イベントに基づくサンプリングを最小限のDiT互換フレームワークとして提案します。
  • EVDは、トークンに整合したイベント活動を予測するイベントヘッドと、訓練中にその活動を状態変化へ結びつけるイベントグラウンディング損失を導入します。
  • ヒステリシスを用いたイベントゲート付きサンプリングと早期ステップスケジューリングを採用し、誤った更新を抑制し、相互作用時には更新を集中させます。
  • EVD-Bench において、本手法は人間の嗜好と動画のダイナミクスを改善し、外観を損なうことなく、状態持続性、空間的精度、支持関係、接触安定性における故障モードを大幅に低減します。
  • 結果は、ビデオ生成における相互作用関連のエラーを低減する実用的な抽象として、明示的なイベントグラウンディングを示唆しています。