概要: 自動動画トレーラー生成の領域は現在、ヒューリスティックに基づく抽出手法から深層生成的な合成へと移行する、深いパラダイムシフトの真っただ中にある。初期の手法は、代表的なショットを選択するために低レベルの特徴量エンジニアリング、視覚的なサリエンシ(顕著性)、そしてルールベースのヒューリスティックに大きく依存していた。一方で近年は、大規模言語モデル(LLM)、マルチモーダル大規模言語モデル(MLLM)、および拡散ベースの動画合成の進展により、単に重要な瞬間を特定するだけでなく、首尾一貫し、感情的に響く物語を構築できるシステムが可能になっている。本調査は、この進化を包括的に技術的に振り返り、自己回帰型Transformer、LLMがオーケストレーションするパイプライン、そしてOpenAIのSoraやGoogleのVeoのようなテキストから動画へ生成する基盤モデルを含む生成技術に特に焦点を当てる。グラフ畳み込みネットワーク(GCN)からトレーラー生成Transformer(TGT)へのアーキテクチャの進展を分析し、自動化されたコンテンツの速度がユーザー生成コンテンツ(UGC)プラットフォームにもたらす経済的含意を評価する。さらに、高精細なニューラル合成によって引き起こされる倫理的課題についても論じる。近年の文献から得られる知見を統合することで、本レポートは、基盤モデルの時代におけるAI駆動のトレーラー生成のための新しいタクソノミー(分類体系)を提示し、将来のプロモーション動画システムは、抽出的な選択を超えて、制御可能な生成的編集とトレーラーの意味的再構成へと進むことを示唆する。
映像トレーラー合成のための生成AI:抽出的ヒューリスティックから自己回帰的な創造性へ
arXiv cs.AI / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、自動的な動画トレーラー生成が、抽出的でヒューリスティックなショット選択から、首尾一貫した感情的に響くトレーラーの物語を生成し得る深い生成合成へと移行していることを概説する。
- LLM/MLLMによって駆動される新興の生成アプローチ、ならびに拡散ベースの動画合成を俯瞰し、自己回帰型トランスフォーマー、LLM主導のオーケストレーション型パイプライン、SoraやVeoのようなテキストから動画への基盤モデルを含めて整理する。
- モデル系列(例:GCNベース手法からトレーラー生成トランスフォーマーへ)を通じて、アーキテクチャの進化の経路をたどり、これらの変化をトレーラー作成のための基盤モデル中心のタクソノミーの枠組みで位置づける。
- 経済面およびプラットフォーム規模での影響を評価し、より高速な自動コンテンツ生成が、ソーシャルプラットフォーム上のUGC(ユーザー生成コンテンツ)の経済性を再構築し得ると論じる。
- 高忠実度のニューラル映像合成によって提起される倫理・ガバナンス上の課題を強調し、生成的編集がより能力を持ち、かつ利用しやすくなるにつれて、制御の必要性を説く。



