要旨: 拡散モデルは高い忠実度の動画クリップを生成できる一方で、それらを首尾一貫したストーリーテリングのエンジンへ変換することは依然として困難です。現在のエージェント型パイプラインは、連結されたモジュールによってこれを自動化しますが、独立した手作りのプロンプトに起因して意味のドリフトや連鎖的な失敗が発生しやすいという問題があります。私たちは、動画ストーリーテリングをグローバルな最適化問題として形式化する階層型マルチエージェントフレームワークであるCo-Directorを提案します。意味の一貫性を保証するために、階層的パラメータ化を導入します。すなわち、多腕バンディットがグローバルに有望な創造的方向性を特定し、一方でローカルなマルチモーダル自己リファインメントのループがアイデンティティのドリフトを抑え、シーケンス全体の整合性を確実にします。これにより、新しい物語戦略の探索と、効果的な創造的構成の活用とのバランスを取ります。評価のために、パーソナライズド広告向けの架空の商品を含む400シナリオのデータセットであるGenAD-Benchを導入します。実験の結果、Co-Directorは最先端のベースラインを大きく上回り、より広範な映画的な物語へシームレスに一般化できる、原理に基づいたアプローチを提供します。プロジェクトページ: https://co-director-agent.github.io/
エージェント型生成ビデオでのストーリーテリング:Co-Director(共同ディレクター)
arXiv cs.AI / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、生成ビデオのストーリーテリングを、バラバラに連結されたプロンプト連鎖ではなく「グローバル最適化問題」として扱う階層型マルチエージェントの枠組みCo-Directorを提案しています。
- 意味的一貫性を保つために、グローバルに創作の方向性を探索するマルチアームド・バンディットと、ローカルなマルチモーダル自己改善ループを組み合わせ、アイデンティティのドリフトを抑えつつシーケンスレベルの整合性を高めます。
- 実験では、Co-Directorが既存のエージェント型ベースラインを大きく上回り、独立した手作りプロンプトに起因しやすい意味のドリフトやカスケード的な失敗の問題を改善しています。
- 評価用に、架空の商品を扱いパーソナライズ広告を想定した400シナリオのデータセットGenAD-Benchを公開しています。
- 本手法は検証設定を超えて一般化できるとしており、より幅広いシネマティックな物語生成を目指しています。




