StoryBlender:空間—時間ダイナミクスを備えたショット間で一貫し、編集可能な3Dストーリーボード

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsModels & Research

要点

  • StoryBlenderは、既存の2D拡散モデルや従来の3Dワークフローが苦手としている「ショット間の視覚的一貫性」と「明示的な編集可能性」を同時に高めることを目的とした、根拠(grounded)型の3Dストーリーボード生成フレームワークの提案である。
  • このシステムは3段階パイプライン――Semantic-Spatial Grounding(セマンティック・空間的グラウンディング)、Canonical Asset Materialization(カノニカル・アセットの具現化)、Spatial-Temporal Dynamics(空間—時間ダイナミクス)――を用いることで、ショット間でのアイデンティティを維持しつつ、空間レイアウトとシネマティックな進行の両方を制御する。
  • StoryBlenderは階層型のマルチエージェント手法により検証ループを採用し、エンジンで検証されたフィードバックを反復ごとに用いることで、空間的なハルシネーション(誤生成)を自己修正する。
  • 得られる出力はネイティブな3Dシーンデータであり、複数ショットにまたがる連続性を保ちながら、カメラやアセットを直接・正確に編集できるように設計されている。
  • 著者らは、拡散ベースおよび他の3Dグラウンディング手法との比較実験により、一貫性と編集可能性が大幅に優れていることを報告しており、コード/データ/動画はプロジェクトサイトでの公開予定である。

Abstract

ストーリーボーディングは、映画、アニメーション、ゲームにおける視覚的な物語作りの中核となるスキルです。しかし、このプロセスを自動化するには、現在の手法がめったに同時に満たさない2つの性質を達成するシステムが必要です。それは、ショット間の一貫性(inter-shot consistency)と、明示的な編集可能性(explicit editability)です。2D拡散ベースの生成器は鮮明な映像を生み出せますが、幾何学的な制御が限られるうえに、しばしばアイデンティティのドリフトに悩まされます。一方で、従来の3Dアニメーションのワークフローは、一貫性と編集可能性を備えていますが、専門家に重く依存し、作業量も多い制作(authoring)が必要です。私たちは、Story-centric Reflection Scheme によって統制された、根拠(grounded)型の3Dストーリーボード生成フレームワークである StoryBlender を提示します。中心となるのは、3段階のパイプラインに基づいて構築された StoryBlender システムです:(1)Semantic-Spatial Grounding:連続性のためのメモリグラフを構築し、グローバルなアセットをショット固有の変数から切り離して、長期的な一貫性を実現します;(2)Canonical Asset Materialization:統一された座標空間内でエンティティを具現化し、視覚的アイデンティティを維持します;(3)Spatial-Temporal Dynamics:視覚的指標(visual metrics)を通じて、レイアウト設計とシネマ的な進化を実現します。検証ループの中で、階層的に複数のエージェントをオーケストレーションすることで、StoryBlender はエンジンによる検証済みのフィードバックを介して、空間的な幻覚(spatial hallucinations)を反復的に自己修正します。得られるネイティブ3Dシーンは、変わらぬマルチショットの連続性を保ちながら、カメラや視覚アセットを直接かつ正確に編集できることを可能にします。実験により、StoryBlender は、拡散ベースおよび 3D-grounded の双方のベースラインに比べて、一貫性と編集可能性を大幅に改善することが示されます。コード、データ、デモンストレーション動画は https://engineeringai-lab.github.io/StoryBlender/ で公開予定です。