マルチタスク・マルチリワード強化学習による SVG-LLMs における信頼性の高い推論

arXiv cs.CV / 2026/3/18

📰 ニュースModels & Research

要点

  • CTRL-S は、出力時にモデルの推論を明示的に開示するために SVG 生成のチェーン・オブ・ソート推論強化学習を提案します。
  • SVG-Sophia は、SVG コードの改良、テキストから SVG、画像から SVG のタスクにまたがる 14.5万サンプルのデータセットを導入し、構造化推論を支援します。
  • 本フレームワークは GRPO アルゴリズムと、学習を導くためのマルチ報酬目的を用い、DINO、画像とテキストの類似度、フォーマット、コード効率性報酬を組み合わせたものです。
  • 結合したマルチタスク学習は、従来手法と比較して、構造的一貫性、SVGコードの出力品質、視覚的忠実度を向上させます。

要旨: 視覚と言語のモデルの急速な進歩により、SVG生成タスクの潜在能力を探る研究がますます増えています。
既存のアプローチは、大規模なSVGデータセットを構築しSVG専用トークンを導入することによって性能を向上させていますが、依然として一般化の制約、コード出力における冗長な経路、そして明示的な推論の欠如といった課題を抱えています。
本研究では、CTRL-S(SVGの思考過程連鎖に基づく強化学習)を提示します。SVG生成中にモデルの推論過程を明示的に開示する思考過程連鎖メカニズムを導入する統一フレームワークです。
この構造化された推論を支援するため、SVGコードの洗練、テキストからSVG、画像からSVGのタスクにまたがる145千サンプルを含む高品質データセットSVG-Sophiaを構築します。
モデルをグループレベルの構造化SVGコードを生成するよう訓練することにより、CTRL-Sは構造的一貫性と視覚的忠実度を大幅に向上させます。
さらに、GRPOアルゴリズムを採用し、DINO、画像-テキスト類似性、フォーマット、コードの効率性といった報酬を組み込んだ多報酬最適化フレームワークを設計します。
共同の多報酬最適化とマルチタスク学習を通じて、私たちのアプローチは全体的な生成能力を体系的に高めます。
広範な実験により、CTRL-Sは既存の手法を上回り、タスク成功率の向上、SVGコード品質の優位性、そして卓越した視覚忠実度を実現することが示されました。
返却形式: {"translated": "翻訳されたHTML"}