ユニバーサルなチャートからコード生成のための整合マルチビュー・スクリプト

arXiv cs.CL / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、Pythonに偏りがちな既存のチャートからコード生成の課題に対処するため、176K枚のチャートと、Python・R・LaTeXで視覚的に等価なセマンティクス対応スクリプトをペアにしたデータセット「Chart2NCode」を提案します。
  • データセットは、メタデータからテンプレートを生成するパイプラインにより構築され、レンダリング検証と人手による品質チェックを通して言語間で視覚的に等価な出力を保証します。
  • LLaVA風のマルチモーダル構成を土台に、ターゲット言語ごとのコード生成を軽量なルーティングで言語別に特化させる「CharLuMA」(パラメータ効率のよい適応モジュール)を提案しています。
  • 実験では、3言語すべてで実行可能性と視覚的忠実性が向上し、強力なオープンソースのベースラインを上回りつつ、プロプライエタリ(商用)システムとも競争力があると報告されています。
  • 追加分析では、バランスの取れた多言語の教師データが全言語に有益であり、アダプタがコンパクトな共有コアと各言語の固有能力を学習することが示されています。