AI Navigate

イベント駆動型ビデオ生成

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

原文を読む →

共有:

要点

本論文は、フレーム優先デノイジングをテキストから動画へのモデルにおける相互作用による幻覚の主要な源として特定し、イベント駆動型ビデオ生成（EVD）を、イベントに基づくサンプリングを最小限のDiT互換フレームワークとして提案します。
EVDは、トークンに整合したイベント活動を予測するイベントヘッドと、訓練中にその活動を状態変化へ結びつけるイベントグラウンディング損失を導入します。
ヒステリシスを用いたイベントゲート付きサンプリングと早期ステップスケジューリングを採用し、誤った更新を抑制し、相互作用時には更新を集中させます。
EVD-Bench において、本手法は人間の嗜好と動画のダイナミクスを改善し、外観を損なうことなく、状態持続性、空間的精度、支持関係、接触安定性における故障モードを大幅に低減します。
結果は、ビデオ生成における相互作用関連のエラーを低減する実用的な抽象として、明示的なイベントグラウンディングを示唆しています。

関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

Reddit r/LocalLLaMA

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

Reddit r/LocalLLaMA

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

Reddit r/LocalLLaMA

[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用

Reddit r/MachineLearning

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。