OmniDiagram：視覚的な問い合わせによる報酬で統合図表コード生成を前進させる

arXiv cs.AI / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

OmniDiagramは、複数の図表コード言語と、先行研究よりも幅広いタスク定義をサポートする、プログラマブル図表生成のための統一フレームワークとして提示される。
本論文では、「Visual Interrogation Verifies All（ViVA）」を導入する。これは、脆い構文規則やピクセルレベルの一致に頼るのではなく、レンダリングされた図表の視覚的な構造を評価する強化学習のフィードバック戦略である。
ViVAは、図表の忠実性を問い質すための、狙った視覚的な問い合わせを能動的に生成することで機能し、手作業によるアノテーション付きの正解コードを必要とせずに、自己進化型の学習ループを可能にするきめ細かな信号を生成する。
著者らはまた、196k件超の高品質インスタンスを含む、初の大規模な図表コード生成データセットとして「M3^2Diagram」を公開している。
実験結果では、教師あり微調整（SFT）とViVAベースの強化学習を組み合わせることで、図表コード生成ベンチマークにおいて新たな最先端の成果が得られることが報告されている。

Abstract

プログラマブルな図生成のパラダイムは急速に進化しており、構造化された可視化において重要な役割を果たしています。しかし、既存の研究の多くは、タスクの定式化や言語対応の限られた範囲にとどまっているため、さまざまな図の種類への適用可能性が制約されています。本研究では、多様な図コード言語とタスク定義を統合的に取り込むフレームワークである OmniDiagram を提案します。強化学習（RL）においてコードの論理を視覚的な忠実度に一致させるという課題に対処するため、Visual Interrogation Verifies All（\textsc{Viva}）と名付けた新しい視覚フィードバック戦略を導入します。壊れやすい構文ベースのルールやピクセルレベルの一致とは異なり、\textsc{Viva} は生成的なアプローチによって、レンダリングされた図の視覚構造に報酬を与えます。具体的には、\textsc{Viva} は、図の視覚的忠実度を精査するための狙いを定めた視覚的問いを能動的に生成し、最適化のためのきめ細かなフィードバックを提供します。この仕組みにより、自己進化する学習プロセスが実現され、手作業で注釈された真値コード（ground truth code）を用意する必要が事実上なくなります。さらに、最初の大規模な図コード生成データセットである M3

^2

Diagram を構築し、196k 件を超える高品質なインスタンスを含めます。実験結果により、SFT と、提案する \textsc{Viva} ベースの RL を組み合わせることで、OmniDiagram が図コード生成ベンチマーク全体で新たな最先端（SOTA）を確立できることが確認されました。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/8Dailyインサイトを見る →

Black Hat Asia

AI Business

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

日経XTECH

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

日経XTECH

OmniDiagram：視覚的な問い合わせによる報酬で統合図表コード生成を前進させる

要点

Abstract

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

ザハ事務所出身の建築家、AI前提の設計法を実践 設計者はキュレーターに

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」 リアルな現場も効率化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化