要旨: ページ規模の書道生成は、字形の正確さとレイアウトの構成をバランスさせることを要求します。既存の字モデルは空間的文脈を欠き、ページ規模の手法はしばしば筆致のディテールを妥協します。本論文では、空間計画と内容合成をデカップリングすることによりこの対立を解決する、\textbf{CalliMaster}、制御可能な生成と編集の統一フレームワークを提示します。人間の認知過程である「書く前の計画」に触発され、ページ規模の合成の組み合わせ的な複雑さに対処するため、粗から細へのパイプライン \textbf{(Text \rightarrow Layout \rightarrow Image)} を導入します。単一のMultimodal Diffusion Transformer内で動作する空間計画段階がまず文字の境界ボックスを予測し、全体の空間配置を確立します。この中間のレイアウトはその後、内容合成段階の幾何学的プロンプトとして機能し、同じネットワークはflow-matchingを用いて高忠実度の筆致を描画します。最先端の生成品質を達成するだけでなく、この分離は多用途な下流機能を支えます。レイアウトを変更可能な制約として扱うことで、CalliMaster は制御可能な意味的再計画を可能にします:ユーザーは文字のサイズ変更や再配置を行えますが、モデルは周囲の空白スペースと筆の勢いを自動的に調和させます。さらに、本フレームワークのアーティファクト復元と鑑識分析への拡張性を実証し、デジタル文化遺産のための包括的なツールを提供します。
CalliMaster: レイアウトに導かれた空間計画でページレベルの中国書道を極める
arXiv cs.CV / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- CalliMasterは、ページレベルの中国書道生成において、レイアウト構成と筆致のバランスを取るために、空間計画と内容合成を切り分けた統合的フレームワークを提供します。
- 単一のマルチモーダル拡散トランスフォーマー内で、粗い段階から細かい段階へと進む Text → Layout → Image パイプラインを採用し、グローバルな空間配置を確立するための文字のバウンディングボックスを予測する初期計画段階を備えています。
- 予測されたレイアウトは、コンテンツ合成の幾何学的プロンプトとして機能し、フロー・マッチングにより高忠実度の筆致をレンダリングします。
- 分離された設計により、意味的な再計画をより自由度高く行えるようになり、ユーザーは文字のサイズ変更や再配置を行える一方、モデルは周囲の空白空間と筆運びの勢いを調和させます。
- 生成だけでなく、このアプローチはアーティファクトの復元および鑑識分析にも拡張され、デジタル文化遺産分野のタスクを支援します。