StoryBlender:空間—時間ダイナミクスを備えたショット間で一貫し、編集可能な3Dストーリーボード
arXiv cs.CV / 2026/4/7
📰 ニュースSignals & Early TrendsModels & Research
要点
- StoryBlenderは、既存の2D拡散モデルや従来の3Dワークフローが苦手としている「ショット間の視覚的一貫性」と「明示的な編集可能性」を同時に高めることを目的とした、根拠(grounded)型の3Dストーリーボード生成フレームワークの提案である。
- このシステムは3段階パイプライン――Semantic-Spatial Grounding(セマンティック・空間的グラウンディング)、Canonical Asset Materialization(カノニカル・アセットの具現化)、Spatial-Temporal Dynamics(空間—時間ダイナミクス)――を用いることで、ショット間でのアイデンティティを維持しつつ、空間レイアウトとシネマティックな進行の両方を制御する。
- StoryBlenderは階層型のマルチエージェント手法により検証ループを採用し、エンジンで検証されたフィードバックを反復ごとに用いることで、空間的なハルシネーション(誤生成)を自己修正する。
- 得られる出力はネイティブな3Dシーンデータであり、複数ショットにまたがる連続性を保ちながら、カメラやアセットを直接・正確に編集できるように設計されている。
- 著者らは、拡散ベースおよび他の3Dグラウンディング手法との比較実験により、一貫性と編集可能性が大幅に優れていることを報告しており、コード/データ/動画はプロジェクトサイトでの公開予定である。




