CharTide：三視点チューニングと問い合わせ駆動の進化によるデータ中心型チャートからコード生成

arXiv cs.CV / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

CharTideは、ビジョン言語モデルの単なるスケールに加えて、チャートからコード生成におけるデータ設計上の制約に焦点を当てて解決します。
Tri-Perspective Tuningにより2M件規模の学習データセットを構築し、視覚認識・コードロジック（純テキスト）・モダリティ融合を別ストリームとして切り離して学習を強化します。
CharTideではアラインメントを、元のチャートと生成チャートで同一の視覚クエリに対する答えが一貫するという情報不変性に基づく問い合わせ駆動型の強化学習（Inquiry-Driven RL）として再定義します。
RLの報酬は「Inspector」と呼ばれる凍結モデルが原子的QAタスクで生成結果を検証し、ヒューリスティックなスコアではなく回答精度に紐づく検証可能な信号を与えることで生成します。
ChartMimic、Plot2Code、ChartXでの実験では、CharTide-7B/8Bがオープンソースのベースラインを上回り、GPT-4oを超え、GPT-5と競合する性能を示します。

要旨: グラフからコードへの生成では、Vision-Language Models（VLMs）に対して厳密な視覚的精度と構文的正確さが要求されます。しかし、既存の手法は根本的にデータ中心の制約により制限されています。増え続けるグラフからコードのデータセットが利用可能であるにもかかわらず、同質なグラフ—コードの組を単にスケールするだけでは、視覚認識とプログラム論理が混同され、モデルがマルチモーダルな監督の豊かさを十分に活用することができません。私たちは、グラフからコード生成のために学習データと整合（アラインメント）データの両方を体系的に再設計する、新しいデータ中心型フレームワークCharTideを提案します。まず、Tri-Perspective Tuning戦略により2Mサンプルのデータセットを構築し、学習を視覚認識、純粋なテキストのコード論理、モダリティ融合ストリームへと明示的にデカップリングします。これにより、7Bモデルが、教師ありデータのみで専門化されたベースラインを上回ることを可能にします。次に、整合をヒューリスティックなスコアリング課題ではなく、データ検証問題として再定式化します。そこで、情報不変性の原理に基づくInquiry-Driven RLフレームワークを導入します。すなわち、下流のモデルは、オリジナルのグラフと生成されたグラフの両方に対して同一の視覚クエリを与えたとき、首尾一貫した回答を返すべきです。厳格なルール一致やVLMのスコアリングを超えて、固定化したInspectorを用いて、原子的なQAタスクを通じて生成されたグラフを客観的に検証します。これにより、回答精度に基づく検証可能な報酬シグナルを提供します。ChartMimic、Plot2Code、ChartXでの実験により、CharTide-7B/8Bがオープンソースのベースラインを大幅に上回り、GPT-4oを超え、GPT-5と競合することが示されます。