KD-CVG：知識駆動アプローチによるクリエイティブ動画生成

arXiv cs.CV / 2026/4/24

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文は、広告向けのクリエイティブ動画生成を改善する知識駆動手法KD-CVGを提案し、テキストや画像に比べて未開拓だった分野に焦点を当てています。
Text-to-Videoにおける主要な課題である「製品のセールスポイントと動画内容の意味的な対応の曖昧さ」と「不適切なモーション適応（不自然な動きや歪み）」を解決することを狙います。
KD-CVGは広告クリエイティブ知識ベースACKBを構築し、Semantic-Aware Retrieval（SAR）とMultimodal Knowledge Reference（MKR）の2モジュールで、SARではグラフ注意機構と強化学習フィードバックによりセールスポイントと動画のつながりを強化し、MKRではT2Vモデルに意味・モーションの事前知識を取り込みます。
実験により、KD-CVGが既存の最先端手法よりも意味的な整合性と、より現実的で適応力のあるモーションを達成できることが示されています。
コードとデータセットは、提示されたプロジェクトサイトでオープンソース化されると述べられています。

概要: クリエイティブ生成（CG）は、生成モデルを活用して、製品の特徴を際立たせる広告コンテンツを自動的に生成するものであり、近年の研究において大きな関心を集めてきました。しかし、CGが大きく進展した一方で、これまでの取り組みの多くは広告のテキストや画像の生成に集中しており、クリエイティブ動画生成（CVG）は比較的十分に調査されていません。このギャップは主に、テキストから動画（T2V）モデルが直面する2つの主要課題によるものです: (a) \textbf{あいまいなセマンティックな整合}。モデルが、製品の訴求点とクリエイティブ動画コンテンツを正確に対応付けることに苦慮すること、そして (b) \textbf{不十分なモーション適応力}。その結果として、不自然な動きや歪みが生じることです。これらの課題に対処するために、基盤となるリソースとして包括的な広告クリエイティブ知識ベース（ACKB）を開発し、既存モデルの知識に関する制約を克服するための知識駆動型アプローチ（KD-CVG）を提案します。KD-CVGは2つの主要モジュールから構成されます: 意味認識型検索（SAR）とマルチモーダル知識参照（MKR）です。SARはグラフ注意ネットワークの意味認識と強化学習のフィードバックを利用して、訴求点とクリエイティブ動画の関係をモデルがよりよく理解できるようにします。これに基づき、MKRは、既存の知識ギャップを埋めるために、T2Vモデルへ意味とモーションの事前知識（プライア）を組み込みます。広範な実験により、KD-CVGがセマンティックな整合とモーション適応力の達成において、他の最先端手法よりも優れた性能を発揮することが示され、その有効性が検証されました。コードとデータセットは https://kdcvg.github.io/KDCVG/ でオープンソースとして公開されます。