要旨: 物語の視覚化は、コンピュータビジョン分野でますます注目を集めている。しかし、現在の手法は正確なキャラクターのカスタマイズ、意味的整合性、および新規アイデンティティの継続的な統合との相乗効果を達成できないことが多い。
この課題に対処するため、本論文では連続的な物語キャラクターのカスタマイズを実現する物語世界シミュレータ「EverTale」を提案します。まず、統一された LoRA モジュール内で継続的なキャラクター適応を実現する「All-in-One-World Character Integrator」を提案し、従来法の各キャラクターごとの最適化モジュールが不要になるようにします。次に、MLLMをジャッジとして用いたキャラクター品質ゲートを組み込み、チェーン・オブ・ソート(思考過程に基づく推論)を介して各キャラクター適応プロセスの忠実度を保証し、モデルが次のキャラクターへ進むべきか、現在のキャラクターに対する追加トレーニングが必要かを判断します。さらに、既存の複数キャラクターを用いた視覚的ストーリーテリングにおけるアイデンティティの劣化とレイアウト衝突を解決するための、キャラクター認識を考慮した領域フォーカスサンプリング戦略を導入し、局所的なキャラクター固有のディテールとグローバルなシーン文脈を高い効率で調和させることにより、自然な複数キャラクター生成を保証します。実験結果は、EverTaleが、単一キャラクターおよび複数キャラクターの物語の視覚化の両方において、比較対象となるより幅広い手法に対して優れた性能を発揮することを示しています。コードは公開される予定です。
連続的なキャラクターカスタマイズを可能にする持続的な物語世界のシミュレーション
arXiv cs.CV / 2026/3/18
📰 ニュースModels & Research
要点
- 視覚的ストーリーテリングにおける連続的なキャラクターカスタマイズを可能とする物語世界シミュレーター EverTale の紹介。
- 統一された LoRA モジュールを用いて、キャラクターごとの最適化モジュールを必要とせず連続的なキャラクター適応を可能にする All-in-One-World Character Integrator を提案する。
- 連鎖思考推論を通じてキャラクター適応の忠実度を確保するため、MLLM-as-Judge によるキャラクター品質ゲートを実装し、各キャラクターの学習ニーズを決定する。
- キャラクター認識対応の領域フォーカス・サンプリング戦略を提示し、局所的なキャラクターの細部とグローバルなシーン文脈を調和させることで、同一性の崩れとレイアウトの衝突を解消する。
- 単一キャラクターおよび複数キャラクターのストーリービジュアライゼーションにおいて、さまざまなベースラインに対して優れた性能を示す実験結果を報告し、コード公開を約束する。


