Render-in-the-Loop：視覚の自己フィードバックによるベクターグラフィックス生成

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、多モーダルLLMによるSVG生成で既存手法がしばしば「オープンループ」（途中のレンダ結果を見ずにSVGコード列だけを生成）になっており、視空間的推論に限界があると指摘しています。
提案は「Render-in-the-Loop」で、コードを段階的に生成するたびに途中状態を累積キャンバスへレンダし、変化する視覚コンテキストを次の生成に反映できるようにします。
オフ・ザ・シェルフなモデルに単純に視覚ループを適用すると性能が伸びにくいため、細かなパス分解とVisual Self-Feedback（VSF）学習戦略により、増分の「視覚→コード」対応を学習しやすくする工夫を入れています。
推論ではRender-and-Verify（RaV）機構を追加し、退化した／冗長な描画プリミティブをフィルタすることで品質を高めています。
その結果、標準ベンチのMMSVGBenchでText-to-SVGおよびImage-to-SVGの両方において強力なオープンウェイト基線を上回り、データ効率と汎化能力の向上が示されています。

Abstract

マルチモーダル大規模言語モデル（MLLMs）は、直接コード合成によってスケーラブル・ベクタ・グラフィックス（SVG）を生成するという点で有望な能力を示してきました。しかし、既存のパラダイムは通常、オープンループの「ブラインド描画」アプローチを採用しています。これは、モデルが途中の視覚的な結果を知覚せずに象徴的なコード列を生成する方法です。この手法は、MLLMsの視覚エンコーダに埋め込まれた強力な視覚的事前知識を大幅に活用できておらず、SVG生成を統合された視覚・空間タスクというよりも、分断されたテキストの系列モデリング課題として扱っています。その結果、モデルは、部分的なキャンバス状態や、視覚的には明示的であるのにテキスト上では曖昧になりがちな暗黙の隠蔽関係について推論するのが難しくなります。このギャップを埋めるために、生成パラダイムであるRender-in-the-Loop（ループ内レンダリング）を提案します。これは、SVG合成を、段階的かつ視覚コンテキストを考慮したプロセスとして言い換える新しい生成枠組みです。中間コード状態を累積的なキャンバスへレンダリングすることで、モデルは各ステップで変化する視覚コンテキストを明示的に観測し、その場でのフィードバックを利用して次の生成を導きます。しかし、既製のモデルにこの視覚ループを素朴に適用することが、インクリメンタルな視覚コード対応を活用できないために最適でないことを示します。これに対処するために、まず微細なパス分解を用いて密なマルチステップの視覚的トラジェクトリを構築し、次にVisual Self-Feedback（VSF）という学習戦略を導入して、中間の視覚状態に基づいて次のプリミティブ生成を条件付けします。さらに、退化した冗長なプリミティブを効果的に除外するための推論メカニズムとしてRender-and-Verify（RaV）を提案します。本フレームワークは、マルチモーダル基盤モデル上で実装されており、標準のMMSVGBenchにおいて強力なオープンウェイトのベースラインを上回ります。この結果は、Text-to-SVGおよびImage-to-SVGの両タスクに対して、Render-in-the-Loopパラダイムが高いデータ効率と汎化能力を持つことを示しています。