要旨: Text-to-SQL ベンチマークで強い性能を示しているにもかかわらず、LLM が生成した SQL プログラムが構造的に信頼できるかどうかは依然として不明です。本研究では、LLM が生成する SQL クエリの構造的振る舞いを調査し、正準的な抽象構文木(AST)表現を通じてプログラム構造を分析するための枠組みである SQLStructEval を提案します。Spider ベンチマークでの実験により、現代的な LLM は、たとえ実行結果が正しい場合でも、同一の入力に対して構造的に多様なクエリを生成することが多いこと、またそのようなばらつきは、言い換えやスキーマ提示といった表層レベルの入力変化によってしばしば引き起こされることを示します。さらに、コンパイル風のパイプラインによって構造化された空間でクエリを生成すると、実行精度と構造的一貫性の両方を改善できることを示します。これらの知見は、構造的信頼性が、LLM ベースのプログラム生成システムを評価する際に重要である一方、見落とされがちな次元であることを示唆しています。コードは https://anonymous.4open.science/r/StructEval-2435 で公開しています。
SQLStructEval: LLMによるテキストからSQL生成の構造的評価
arXiv cs.CL / 2026/4/9
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Text-to-SQLベンチマークで高いスコアを得られていても、LLMが生成したSQLの構造的な信頼性が保証されるわけではないと主張し、実行の正しさを超えた評価の必要性を動機づけている。
- SQLStructEvalを提案し、正準(canonical)なAST表現を用いて、生成されたSQLクエリのプログラム構造を分析・比較する。
- Spiderベンチマークでの実験では、最新のLLMでも、同じ質問に対して生成されるSQLが構造的に多様になることがあることを示している。たとえ実行結果が正しくても構造は一貫しない。
- 構造のばらつきは、言い換えや異なるスキーマ提示形式といった表層的な変化によって引き起こされることが多い。
- 著者らは、コンパイル風の構造化されたパイプラインを通じてSQLを生成することで、実行精度と構造の一貫性の両方を改善できることを示し、構造的信頼性を見落とされがちな評価次元として強調している。


