より安く、より良く、より速く、より強く:Chain-of-Thoughtや微調整なしで堅牢なテキスト→SQL

arXiv cs.CL / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、Chain-of-Thought、自己一貫性、微調整などを用いる最先端のテキスト→SQL手法が抱える推論コストの高さに焦点を当てています。
  • 「N-rep」consistencyを提案し、単一のスキーマ表現の弱点を複数の表現で緩和することで頑健性を高めます。
  • N-repは、より高価な手法と同等に近いBIRDベンチマーク成績を達成しつつ、クエリ当たりの平均コストを約$0.039にまで削減します。
  • 推論(Chain-of-Thought)や微調整を不要にすることで、小型で安価なモデルの利用を可能にします。
  • 著者らは、実験結果に基づき、N-repが自身のコスト帯域におけるテキスト→SQLで最も高性能だと主張しています。

Abstract

LLMは、テキストからSQLへのようなコード生成タスクに対して有効ですが、そのコストは見合うのでしょうか。最先端の多くのアプローチでは、Chain-of-Thought(CoT)、自己一貫性(self-consistency)、ファインチューニングなど、タスク固有ではないLLM手法が用いられています。これらの手法は推論時に高コストになり得て、推論を伴うLLM呼び出しが100回以上必要になる場合もあり、平均で1クエリあたり最大で\$0.46の費用がかかります。一方、ファインチューニング済みのモデルは数千ドルのコストがかかることがあります。私たちは、「N-rep」整合性(consistency)を導入します。これは、よりコスト効率の高いテキストからSQLのアプローチであり、他のより高価な手法と同等のBIRDベンチマークスコアを達成しつつ、1クエリあたり\$0.039に抑えます。N-repは、同一のスキーマ入力に対して複数の表現(representations)を用いることで、単一の表現に起因する弱点を軽減し、より頑健な解を可能にします。その結果、推論やファインチューニングなしで、より小さく安価なモデルを使用できます。私たちの知る限り、N-repは、そのコスト範囲におけるテキストからSQL手法として最も高い性能を発揮します。