Render-in-the-Loop:視覚の自己フィードバックによるベクターグラフィックス生成
arXiv cs.CV / 2026/4/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、多モーダルLLMによるSVG生成で既存手法がしばしば「オープンループ」(途中のレンダ結果を見ずにSVGコード列だけを生成)になっており、視空間的推論に限界があると指摘しています。
- 提案は「Render-in-the-Loop」で、コードを段階的に生成するたびに途中状態を累積キャンバスへレンダし、変化する視覚コンテキストを次の生成に反映できるようにします。
- オフ・ザ・シェルフなモデルに単純に視覚ループを適用すると性能が伸びにくいため、細かなパス分解とVisual Self-Feedback(VSF)学習戦略により、増分の「視覚→コード」対応を学習しやすくする工夫を入れています。
- 推論ではRender-and-Verify(RaV)機構を追加し、退化した/冗長な描画プリミティブをフィルタすることで品質を高めています。
- その結果、標準ベンチのMMSVGBenchでText-to-SVGおよびImage-to-SVGの両方において強力なオープンウェイト基線を上回り、データ効率と汎化能力の向上が示されています。



