物語の方向性を導く:物語生成における一貫性とスタイルを制御するファインチューニング手法

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 一貫性とスタイルを向上させるため、Group-Shared Attention(GSA)とDirect Preference Optimization(DPO)を組み合わせた、物語生成の二段階フレームワークを提案する。
  • Group-Shared Attention は、外部エンコーダに依存することなく、注意層内でロスレスなサンプル間情報伝達を可能にし、フレーム間のアイデンティティの一貫性をエンコードする。
  • Direct Preference Optimization は、矛盾する補助損失ではなく、総合的な嗜好データから学習することにより、生成された出力を人間の美的および叙述基準に合わせる。
  • ViStoryBench において、本手法は最先端の結果を達成し、キャラクター同一性(CIDS)で +10.0、スタイル一貫性(CSD)で +18.7 の改善を実現しつつ、高忠実度の生成を維持する。

概要: ストーリービジュアライゼーションは、進化する物語と意味的に整合する連続的な画像を生成し、キャラクターのアイデンティティと視覚的スタイルの厳密な一貫性を維持することを要求します。
しかし、既存の手法は、特に複雑な相互作用や長期の物語アークを描く場合に、対象の不一致と同一性のドリフトに苦しむことが多いです。
これらの課題に対処するため、堅牢で一貫した物語生成を実現する、統合的な2段階フレームワークを提案します。
まず、Group-Shared Attention (GSA) を導入します。これは、アテンション層内でロスレスなサンプル間情報フローを可能にすることで、本質的な一貫性を育む仕組みです。
これにより、外部エンコーダに依存せず、フレーム間の同一性対応を構造的にエンコードすることがモデルに可能になります。
次に、Direct Preference Optimization (DPO) を活用して、生成された出力を人間の美的および物語的基準に合わせます。
従来の補助損失の衝突に依存する手法とは異なり、私たちのアプローチは全体的な嗜好データから学習することで、視覚的忠実度と同一性の保持を同時に高めます。
ViStoryBench ベンチマークでの広範な評価は、私たちの手法が新たな最先端を確立し、強力なベースラインを大幅に上回ることを示しています。Character Identity (CIDS) で +10.0、Style Consistency (CSD) で +18.7 の向上を達成しつつ、高忠実度の生成を維持します。