DRG-Font:コントラスト的なスタイル・コンテンツの非対応化による動的参照誘導の少数ショットフォント生成

arXiv cs.CV / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、限られた参照から局所的なグリフ特性をより良く保持することを目的とした、動的参照誘導型の少数ショットフォント生成手法DRG-Fontを提案する。
  • 埋め込み空間での非対応化(disentanglement)により、スタイル/形状の事前知識をそれぞれ異なる成分として分離し、スタイルとコンテンツ表現をコントラスト学習することで、スタイルの捉えを改善する。
  • 参照選択(RS)モジュールを提案し、候補プールの中から最も適切なスタイル参照を動的に選び出すことで、より効果的なスタイル教師信号を実現する。
  • アーキテクチャは、多スケールのスタイル/コンテンツヘッドブロック(MSHB/MCHB)と、多重フュージョンのアップサンプリングブロック(MFUB)を用いて、選択したスタイル事前知識とターゲットのコンテンツ事前知識を融合し、最終的なグリフを生成する。
  • 著者らは、複数の視覚および解析ベンチマークにおいて、既存の最先端手法に対して大幅な性能向上を報告している。

Abstract

Few-shot Font Generation(少数例フォント生成)は、いくつかの参照グリフから様式的に一貫したグリフを生成することを目的としています。しかし、少数の実例から複雑なフォントスタイルを捉えることは依然として難しく、既存手法では生成サンプルにおける識別可能な局所的特徴を保持することにしばしば苦戦します。本論文では、スタイルとコンテンツの埋め込み空間を分解することで複雑なグリフ属性を学習する、対照的フォント生成戦略であるDRG-Fontを提案します。最適なスタイル教師信号のために、提案アーキテクチャは、候補プールから利用可能な最良のスタイル参照を動的に選択するReference Selection(RS)モジュールを組み込みます。ネットワークは、Multi-scale Style Head Block(MSHB)およびMulti-scale Content Head Block(MCHB)を通じて、グリフ属性をスタイルと形状の事前知識(prior)に分解することを学習します。スタイル適応のために、Multi-Fusion Upsampling Block(MFUB)が、参照スタイルの事前知識と目標コンテンツの事前知識を組み合わせて、目標グリフを生成します。提案手法は、複数の視覚および分析ベンチマークにおいて、最先端手法に比べて大幅な改善を示します。