要旨: プロンプト戦略はLLMの推論性能に影響しますが、図表ベースのQAにおけるその役割は十分に調査されていません。私たちは、ChartQAデータセット上で、GPT-3.5、GPT-4、GPT-4oに対して、4つの広く用いられているプロンプトのパラダイム(ゼロショット、ファーストショット、ゼロショット連鎖思考、ファーストショット連鎖思考)を体系的に評価します。私たちの枠組みは構造化された図表データのみを用いて動作し、実験上の変数としてプロンプト構造のみを切り分けます。また、性能は2つの指標、すなわち Accuracy と Exact Match を用いて評価します。多様な1,200件のChartQAサンプルから得られた結果により、ファーストショット連鎖思考プロンプトは一貫して最高の精度をもたらすことが示されます(最大78.2\%)。特に、推論を要する質問で顕著です。一方で、ファーストショットは形式への適合を改善します。ゼロショットは、より高い能力を持つモデルで、より単純なタスクに限って良好に機能します。これらの知見は、構造化データの推論タスクにおいてプロンプト戦略を選択するための実行可能な指針を提供し、現実のアプリケーションにおける効率と精度の双方に示唆を与えます。
大規模言語モデルによるチャート質問応答におけるプロンプト戦略の評価
arXiv cs.AI / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、構造化されたチャート入力のみを用いたチャート質問応答における大規模言語モデルの性能について、4つのプロンプト戦略(ゼロショット、ショット数少なめ(Few-Shot)、およびそれらのChain-of-Thoughtバリアント)を体系的に比較する。
- GPT-3.5、GPT-4、GPT-4oの評価(1,200件のChartQAサンプル)では、Few-Shot Chain-of-Thoughtが総合的に最も良い結果を示し、最大78.2%の精度に到達し、とりわけ推論を要する質問で優れている。
- Chain-of-Thoughtを用いないFew-Shotプロンプトは出力フォーマットの遵守を改善することが示され、推論の質と応答構造の一貫性の間にトレードオフがあることを示唆している。
- ゼロショット・プロンプトは、より高い能力を持つモデルでのみうまく機能し、主として単純なタスクで有効である傾向があり、構造化データの推論においてはプロンプト設計が重要であることを示している。
- 著者らは、実世界の構造化チャート推論システムにおいて、効率と精度のバランスを取りながら適切なプロンプト手法を選ぶための実践的なガイダンスを提示している。
