要旨: 自然言語からSQLへの変換(NL2SQL)は、企業におけるデータの民主化を進める上で、依然として重大なボトルネックとなっています。Gemini 2.5をはじめとする大規模言語モデル(LLM)は、優れたゼロショット能力を示してきましたが、高い推論コストが大規模導入を制限しています。本論文では、NL2SQLタスクに対して大規模および小規模の言語モデルの両方を微調整した場合の有効性を検証します。
本研究により、直感に反するスケーリング現象が明らかになりました。標準的なデータセットで大規模モデル(Gemini 2.5 Flash/Lite)を微調整しても、得られる効果はほとんどなく、多くの場合、複雑なクエリに過学習してしまいます。対照的に、小規模モデル(Qwen)は大きな改善を示します。微調整によって、小規模モデルのベースラインは36%から45%へと向上し、さらにデータセットに明示的なChain-of-Thought(CoT)推論を追加することで、精度は54.5%(図2)まで急上昇しました。これは依然として、Gemini 2.5のような大規模モデルの精度には及ばないものの、コストの大幅削減、推論時間の低遅延化、そしてビジネス上の重要なパフォーマンス精度の閾値を満たすというビジネス目標には資するものです。本論文は、推論パターンを転移することで、計算効率の高い小規模モデルが本番運用レベルの性能に近づけることを示します。
Chain-of-Thought(CoT)による微調整でNL2SQL向けの小規模言語モデルを最適化する
arXiv cs.AI / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、微調整によってNL2SQLシステムを改善し、大規模LLMの推論コストが高い状況でも、SQL生成を企業規模で実用可能にすることを目的として検討する。
- 直感に反するスケーリング結果を見出す。標準的なNL2SQLデータセットで大規模モデルを微調整しても得られる効果はほとんどなく、複雑なクエリに対して過学習を引き起こすことさえある。
- 一方で、小規模モデル(例:Qwen)を微調整すると大きな改善が得られる。ベースラインの性能が36%から45%へと向上する。
- 学習データに明示的なChain-of-Thought(CoT)の推論を追加すると、さらに精度が54.5%まで向上する。これにより、大規模システムから小規模で低コストなモデルへの推論の転移が改善される。
- 著者らは、計算効率の高い小規模モデルが推論パターンを学習することで、小規模でも本番で必要とされる性能目標に到達できると結論づけている。大規模モデルの精度がより高いとしても、低コストかつ低遅延のデプロイを実現できる。
