Abstract
プログラマブルな図生成のパラダイムは急速に進化しており、構造化された可視化において重要な役割を果たしています。しかし、既存の研究の多くは、タスクの定式化や言語対応の限られた範囲にとどまっているため、さまざまな図の種類への適用可能性が制約されています。本研究では、多様な図コード言語とタスク定義を統合的に取り込むフレームワークである OmniDiagram を提案します。強化学習(RL)においてコードの論理を視覚的な忠実度に一致させるという課題に対処するため、Visual Interrogation Verifies All(\textsc{Viva})と名付けた新しい視覚フィードバック戦略を導入します。壊れやすい構文ベースのルールやピクセルレベルの一致とは異なり、\textsc{Viva} は生成的なアプローチによって、レンダリングされた図の視覚構造に報酬を与えます。具体的には、\textsc{Viva} は、図の視覚的忠実度を精査するための狙いを定めた視覚的問いを能動的に生成し、最適化のためのきめ細かなフィードバックを提供します。この仕組みにより、自己進化する学習プロセスが実現され、手作業で注釈された真値コード(ground truth code)を用意する必要が事実上なくなります。さらに、最初の大規模な図コード生成データセットである M3^2Diagram を構築し、196k 件を超える高品質なインスタンスを含めます。実験結果により、SFT と、提案する \textsc{Viva} ベースの RL を組み合わせることで、OmniDiagram が図コード生成ベンチマーク全体で新たな最先端(SOTA)を確立できることが確認されました。