概要: 近年の視覚言語モデル(VLM)の進歩は、頑健な推論能力を必要とする真の知能に向けた進展を示してきました。単なるパターン認識を超えて、言語的推論は、特に複雑なデータ可視化を扱うチャート質問応答(CQA)タスクにおいて、視覚理解と統合されなければなりません。しかし現在のVLMには、CQAにおいて重大な制限があります。具体的には、数値抽出が不正確であること、暗黙の視覚的関係の解釈が難しいこと、そしてチャート内の空間関係を捉えるための注意機構が不十分であることです。本研究では、これらの課題に対処するため、Chart-RLという新しい強化学習フレームワークを提案します。これは、視覚認識と論理推論を、フィードバック駆動のポリシー最適化によって強化し、VLMのチャート理解を向上させます。本研究の主要な革新は、方策最適化に基づく強化学習(RL)と、適応的な報酬関数を統合した包括的なフレームワークを含む点であり、基盤となるモデル群と比較して優れた性能を示し、さらにより大規模な最先端アーキテクチャに対しても競争力のある結果を実現します。また、RLフレームワークにLoRA(Low-Rank Adaptation)によるパラメータ効率の高い微調整を統合し、単一GPU構成のみを必要としつつ、性能の整合性を維持します。ChartQAProデータセットを用いて、オープンソース、プロプライエタリ、および最先端のクローズドソースモデルに対して大規模なベンチマークを実施しました。RLで微調整したQwen3-VL-4B-Instructモデルは、回答精度0.634を達成し、パラメータ数が半分であるにもかかわらず基盤モデルであるQwen3-VL-8B-Instructの0.580の精度を上回りました。同時に、推論レイテンシを31秒から9秒へと低減しました。
Chart-RL:チャート質問応答における強化された視覚推論のための、ビジョン言語モデルに対する強化学習によるポリシー最適化
arXiv cs.AI / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、チャート質問応答におけるビジョン言語モデルの性能を、視覚的知覚と論理的推論の両面を強化することで向上させるための強化学習フレームワーク「Chart-RL」を提案する。
- 既存のVLMに見られるCQA(Chart Question Answering)の主要な失敗、すなわち数値抽出の不正確さ、チャートにおける暗黙的な関係の読み取りミス、空間構造への注意の弱さを対象とする。
- Chart-RLは、フィードバック駆動のポリシー最適化と適応的な報酬関数を用い、基礎モデルのベースラインより良い結果を報告し、大規模な最先端システムに対しても競争力のある性能を示す。
- LoRAによるパラメータ効率の高いファインチューニングと強化学習を組み合わせることで、単一GPU環境で実行可能でありながら性能を維持でき、ChartQAProデータセット上で複数のモデルファミリにわたってベンチマークを行う。
- 注目すべき結果として、RLによるQwen3-VL-4B-Instructのファインチューニングにより、回答精度を0.634に改善した(8Bの基礎モデルは0.580)。さらに推論レイテンシは31秒から9秒へと削減された。



