VAnim：構造を保つベクターアニメーションのための、レンダリングを考慮したスパース状態モデリング

arXiv cs.CV / 2026/5/5

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

本論文は、トポロジーを崩さない構造編集可能なアニメーション生成を目標にした、テキストからSVGへ変換するLLMベースのオープンドメイン手法VAnimを提案する。
VAnimはフレーム列をそのまま生成するのではなく、永続的なSVG DOMツリー上でアニメーションをSparse State Updates（SSU）として扱うことで、DOM構造を維持しつつ配列長を9.8倍以上圧縮する。
テキスト指示を明示的な視覚的実体に結び付けてより細かな制御を可能にするIdentification-First Motion Planningを提案する。
SVGレンダリングが非微分であるという課題に対し、Group Relative Policy Optimization（GRPO）を用いたRendering-Aware Reinforcement Learningを採用し、動画知覚エンコーダに基づくハイブリッド報酬で高忠実度な視覚整合を促す。
さらに、ベクターアニメーションの新しいベンチマークSVGAnim-134kを公開し、従来手法よりも意味整合と構造妥当性で優れることを大規模実験で示し、モーション品質や同一性保持も補遺指標で裏付けている。

要旨: スケーラブル・ベクタ・グラフィックス（SVG）のアニメーション生成は、構造的な編集容易性と解像度非依存性により、プロフェッショナルなデザインにとって極めて重要です。しかし、このタスクは、離散的なコード表現と連続的な視覚ダイナミクスを橋渡しする必要があるため、依然として困難です。既存の最適化ベース手法はしばしばトポロジーの一貫性を破壊し、汎用のLLMは剛直なCSS/SMIL変換に依存して、ジオメトリ（幾何）レベルの非剛体変形をモデル化できません。これらの制約に対処するため、私たちは開放領域のテキストからSVGアニメーションへの変換を扱う、最初のLLMベースの枠組みであるVAnimを提案します。私たちはアニメーションを、シーケンス生成として捉えるのではなく、永続的なSVG DOMツリーに対する疎な状態更新（Sparse State Updates; SSU）として再概念化します。このパラダイムにより、SVG DOM構造を保持し、参加しない要素は構成（設計）によって維持したまま、シーケンス長を9.8倍以上圧縮します。正確な制御を可能にするために、テキストによる指示を明示的な視覚エンティティに根拠づける、Identification-First Motion Planning（識別優先の運動計画）メカニズムを提案します。さらに、SVGレンダリングの非微分可能な性質を克服するために、Group Relative Policy Optimization（GRPO）によるレンダリング認識型強化学習を用います。最先端の動画知覚エンコーダからのハイブリッドな報酬を活用することで、離散的なコード更新を高忠実度な視覚フィードバックに整合させます。また、ベクタアニメーションのための最初のベンチマークであるSVGAnim-134kを導入します。大規模な実験により、VAnimがセマンティックな整合性と構造的妥当性の両面で、最先端のベースラインを大幅に上回ることを示します。付録の追加メトリクスは、運動の質およびアイデンティティの保持をさらに裏付けています。