要旨: 近年の大規模言語モデルは、SVG生成を微分可能なレンダリング最適化から、自 autoregressive なプログラム合成へと移行してきました。しかし、既存の手法はいまだに自然言語処理に由来する汎用のバイトレベルのトークン化に依存しており、これはベクタ画像の幾何学的構造を適切に反映できていません。数値座標は離散的な記号に分断され、空間的な関係が破壊されるとともに、深刻なトークン冗長性を導入します。これにより、多くの場合座標の幻覚が発生し、長い系列の生成が非効率になります。これらの課題に対処するために、我々は、自己回帰的なベクタ画像生成に特化した階層的SVGトークン化フレームワークであるHiVGを提案します。HiVGは、生のSVG文字列を構造化された\textit{アトミックトークン}へ分解し、さらに実行可能なコマンド--パラメータの組を、幾何学的制約を受けた\textit{セグメントトークン}へと圧縮します。これにより、構文の妥当性を保持しつつ、系列効率が大幅に向上します。空間の不整合をさらに緩和するために、新しいトークン埋め込みへ数値の順序信号と意味的な事前知識を注入する階層的平均--ノイズ(HMN)初期化戦略を導入します。さらに、プログラムの複雑さを段階的に高めていくカリキュラム学習の枠組みと組み合わせることで、HiVGは実行可能なSVGプログラムの学習をより安定に実現します。テキストからSVG、画像からSVGの双方のタスクに対する大規模な実験により、従来のトークン化方式と比べて、生成の忠実性、空間的一貫性、そして系列効率が向上することを示します。
階層型SVGトークン化:スケーラブルなベクタ画像モデリングのためのコンパクトな視覚プログラムを学習する
arXiv cs.LG / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、自己回帰的なSVG生成モデルが、NLPから流用した汎用のバイトレベル・トークン化を用いると、座標が分断され空間的関係が損なわれるため、性能が低下することを主張している。
- 「HiVG」と呼ばれる階層型SVGトークン化方式を提案し、コンパクトな“原子トークン”を構築したうえで、有効なコマンド—パラメータのブロックを、幾何学的制約を伴う“セグメントトークン”に圧縮する。
- 空間の不一致や座標のハルシネーションを抑えるために、階層型平均—ノイズ(HMN)埋め込み初期化を提案し、数値の順序に関するシグナルと意味的な事前知識(プライア)を注入する。
- プログラムの複雑さを段階的に高めるカリキュラム学習戦略により、実行可能なSVGプログラムをより安定して学習できるようにする。
- テキストからSVG、画像からSVGの実験により、従来のトークン化手法と比べて、生成の忠実度、空間的整合性、そしてシーケンス効率が向上することを示す。
