OmniDiagram:視覚的な問い合わせによる報酬で統合図表コード生成を前進させる

arXiv cs.AI / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • OmniDiagramは、複数の図表コード言語と、先行研究よりも幅広いタスク定義をサポートする、プログラマブル図表生成のための統一フレームワークとして提示される。
  • 本論文では、「Visual Interrogation Verifies All(ViVA)」を導入する。これは、脆い構文規則やピクセルレベルの一致に頼るのではなく、レンダリングされた図表の視覚的な構造を評価する強化学習のフィードバック戦略である。
  • ViVAは、図表の忠実性を問い質すための、狙った視覚的な問い合わせを能動的に生成することで機能し、手作業によるアノテーション付きの正解コードを必要とせずに、自己進化型の学習ループを可能にするきめ細かな信号を生成する。
  • 著者らはまた、196k件超の高品質インスタンスを含む、初の大規模な図表コード生成データセットとして「M3^2Diagram」を公開している。
  • 実験結果では、教師あり微調整(SFT)とViVAベースの強化学習を組み合わせることで、図表コード生成ベンチマークにおいて新たな最先端の成果が得られることが報告されている。

Abstract

プログラマブルな図生成のパラダイムは急速に進化しており、構造化された可視化において重要な役割を果たしています。しかし、既存の研究の多くは、タスクの定式化や言語対応の限られた範囲にとどまっているため、さまざまな図の種類への適用可能性が制約されています。本研究では、多様な図コード言語とタスク定義を統合的に取り込むフレームワークである OmniDiagram を提案します。強化学習(RL)においてコードの論理を視覚的な忠実度に一致させるという課題に対処するため、Visual Interrogation Verifies All(\textsc{Viva})と名付けた新しい視覚フィードバック戦略を導入します。壊れやすい構文ベースのルールやピクセルレベルの一致とは異なり、\textsc{Viva} は生成的なアプローチによって、レンダリングされた図の視覚構造に報酬を与えます。具体的には、\textsc{Viva} は、図の視覚的忠実度を精査するための狙いを定めた視覚的問いを能動的に生成し、最適化のためのきめ細かなフィードバックを提供します。この仕組みにより、自己進化する学習プロセスが実現され、手作業で注釈された真値コード(ground truth code)を用意する必要が事実上なくなります。さらに、最初の大規模な図コード生成データセットである M3^2Diagram を構築し、196k 件を超える高品質なインスタンスを含めます。実験結果により、SFT と、提案する \textsc{Viva} ベースの RL を組み合わせることで、OmniDiagram が図コード生成ベンチマーク全体で新たな最先端(SOTA)を確立できることが確認されました。