Prompt Relay：複数イベントの動画生成における推論時の時間的制御

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、動画拡散モデルにおける重要な限界に取り組む。すなわち、単一の段落プロンプトを用いた場合、複数のイベントの時間的な順序（順番）、継続時間、そして概念が現れるタイミングを制御することが難しい点である。

Abstract

ビデオ拡散モデルは、高品質な動画の生成において目覚ましい進歩を遂げてきました。しかし、これらのモデルは実世界の動画における複数の出来事の時間的な連なりを表現するのが難しく、意味的な概念がいつ現れるのか、どれくらい持続するのか、また複数の出来事がどのような順序で起こるのかを制御するための明示的な仕組みも欠けています。このような制御は、出来事間の正確なタイミング、持続時間、遷移に基づく筋の通ったストーリーテリングが重要となる、映画級の動画合成において特に重要です。複雑な複数の出来事のシーケンスを記述するために単一の段落形式のプロンプトを用いると、モデルはしばしば意味の絡み合い（semantic entanglement）を示し、動画の異なる時点で意図された概念が互いににじみ合ってしまい、その結果としてテキストと動画の整合が不十分になります。これらの制約に対処するために、我々は Prompt Relay を提案します。Prompt Relay は、推論時（inference-time）で動作する、プラグアンドプレイの手法であり、多出来事の動画生成におけるきめ細かな時間的制御を可能にします。これはアーキテクチャの変更を必要とせず、追加の計算オーバーヘッドも発生しません。Prompt Relay はクロスアテンション機構にペナルティを導入し、その結果として各時間区間は割り当てられたプロンプトにのみ注意を向けるようになります。これにより、モデルは一度に1つの意味的概念を表現できるようになり、時間的プロンプトの整合が改善され、意味干渉が低減され、視覚品質が向上します。