イベント駆動型ビデオ生成
arXiv cs.CV / 2026/3/17
📰 ニュースModels & Research
要点
- 本論文は、フレーム優先デノイジングをテキストから動画へのモデルにおける相互作用による幻覚の主要な源として特定し、イベント駆動型ビデオ生成(EVD)を、イベントに基づくサンプリングを最小限のDiT互換フレームワークとして提案します。
- EVDは、トークンに整合したイベント活動を予測するイベントヘッドと、訓練中にその活動を状態変化へ結びつけるイベントグラウンディング損失を導入します。
- ヒステリシスを用いたイベントゲート付きサンプリングと早期ステップスケジューリングを採用し、誤った更新を抑制し、相互作用時には更新を集中させます。
- EVD-Bench において、本手法は人間の嗜好と動画のダイナミクスを改善し、外観を損なうことなく、状態持続性、空間的精度、支持関係、接触安定性における故障モードを大幅に低減します。
- 結果は、ビデオ生成における相互作用関連のエラーを低減する実用的な抽象として、明示的なイベントグラウンディングを示唆しています。
関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA
[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用
Reddit r/MachineLearning