エージェント型生成ビデオでのストーリーテリング：Co-Director（共同ディレクター）

arXiv cs.AI / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、生成ビデオのストーリーテリングを、バラバラに連結されたプロンプト連鎖ではなく「グローバル最適化問題」として扱う階層型マルチエージェントの枠組みCo-Directorを提案しています。
意味的一貫性を保つために、グローバルに創作の方向性を探索するマルチアームド・バンディットと、ローカルなマルチモーダル自己改善ループを組み合わせ、アイデンティティのドリフトを抑えつつシーケンスレベルの整合性を高めます。
実験では、Co-Directorが既存のエージェント型ベースラインを大きく上回り、独立した手作りプロンプトに起因しやすい意味のドリフトやカスケード的な失敗の問題を改善しています。
評価用に、架空の商品を扱いパーソナライズ広告を想定した400シナリオのデータセットGenAD-Benchを公開しています。
本手法は検証設定を超えて一般化できるとしており、より幅広いシネマティックな物語生成を目指しています。

要旨: 拡散モデルは高い忠実度の動画クリップを生成できる一方で、それらを首尾一貫したストーリーテリングのエンジンへ変換することは依然として困難です。現在のエージェント型パイプラインは、連結されたモジュールによってこれを自動化しますが、独立した手作りのプロンプトに起因して意味のドリフトや連鎖的な失敗が発生しやすいという問題があります。私たちは、動画ストーリーテリングをグローバルな最適化問題として形式化する階層型マルチエージェントフレームワークであるCo-Directorを提案します。意味の一貫性を保証するために、階層的パラメータ化を導入します。すなわち、多腕バンディットがグローバルに有望な創造的方向性を特定し、一方でローカルなマルチモーダル自己リファインメントのループがアイデンティティのドリフトを抑え、シーケンス全体の整合性を確実にします。これにより、新しい物語戦略の探索と、効果的な創造的構成の活用とのバランスを取ります。評価のために、パーソナライズド広告向けの架空の商品を含む400シナリオのデータセットであるGenAD-Benchを導入します。実験の結果、Co-Directorは最先端のベースラインを大きく上回り、より広範な映画的な物語へシームレスに一般化できる、原理に基づいたアプローチを提供します。プロジェクトページ: https://co-director-agent.github.io/

現実には試作ガンダムが最強なんてことは無い筈だが…AI環境ではあり得た。

note

Takahiro.K ｜元SEコンサルのAI対話ログ

note

AIエージェントは、人間のように組織を運営することができるか

note

Geminiは現代の駆け込み寺 !? 悩み相談室!?

note

要約AI | おじの解説 | 📗 AIを組織で回す技術 045

note

エージェント型生成ビデオでのストーリーテリング：Co-Director（共同ディレクター）

要点

関連記事

現実には試作ガンダムが最強なんてことは無い筈だが…AI環境ではあり得た。

Takahiro.K ｜元SEコンサルのAI対話ログ

AIエージェントは、人間のように組織を運営することができるか

Geminiは現代の駆け込み寺 !? 悩み相談室!?

要約AI | おじの解説 | 📗 AIを組織で回す技術 045

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

現実には試作ガンダムが最強なんてことは無い筈だが…AI環境ではあり得た。

Takahiro.K ｜ 元SEコンサルのAI対話ログ

AIエージェントは、人間のように組織を運営することができるか

Geminiは現代の 駆け込み寺 !? 悩み相談室!?

要約AI | おじの解説 | 📗 AIを組織で回す技術 045

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

Takahiro.K ｜元SEコンサルのAI対話ログ

Geminiは現代の駆け込み寺 !? 悩み相談室!?