SQLStructEval: LLMによるテキストからSQL生成の構造的評価

arXiv cs.CL / 2026/4/9

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Text-to-SQLベンチマークで高いスコアを得られていても、LLMが生成したSQLの構造的な信頼性が保証されるわけではないと主張し、実行の正しさを超えた評価の必要性を動機づけている。
SQLStructEvalを提案し、正準（canonical）なAST表現を用いて、生成されたSQLクエリのプログラム構造を分析・比較する。
Spiderベンチマークでの実験では、最新のLLMでも、同じ質問に対して生成されるSQLが構造的に多様になることがあることを示している。たとえ実行結果が正しくても構造は一貫しない。
構造のばらつきは、言い換えや異なるスキーマ提示形式といった表層的な変化によって引き起こされることが多い。
著者らは、コンパイル風の構造化されたパイプラインを通じてSQLを生成することで、実行精度と構造の一貫性の両方を改善できることを示し、構造的信頼性を見落とされがちな評価次元として強調している。

要旨: Text-to-SQL ベンチマークで強い性能を示しているにもかかわらず、LLM が生成した SQL プログラムが構造的に信頼できるかどうかは依然として不明です。本研究では、LLM が生成する SQL クエリの構造的振る舞いを調査し、正準的な抽象構文木（AST）表現を通じてプログラム構造を分析するための枠組みである SQLStructEval を提案します。Spider ベンチマークでの実験により、現代的な LLM は、たとえ実行結果が正しい場合でも、同一の入力に対して構造的に多様なクエリを生成することが多いこと、またそのようなばらつきは、言い換えやスキーマ提示といった表層レベルの入力変化によってしばしば引き起こされることを示します。さらに、コンパイル風のパイプラインによって構造化された空間でクエリを生成すると、実行精度と構造的一貫性の両方を改善できることを示します。これらの知見は、構造的信頼性が、LLM ベースのプログラム生成システムを評価する際に重要である一方、見落とされがちな次元であることを示唆しています。コードは https://anonymous.4open.science/r/StructEval-2435 で公開しています。

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

なぜAnthropicの新モデルがサイバーセキュリティの専門家を動揺させているのか

Reddit r/artificial

AI 2027の論文は、いまもなお正当性を持っているのか？

Reddit r/artificial

なぜほとんどの生産性システムが失敗するのか（そして代わりに何をすべきか）

Dev.to

SQLStructEval: LLMによるテキストからSQL生成の構造的評価

要点

関連記事

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

なぜAnthropicの新モデルがサイバーセキュリティの専門家を動揺させているのか

AI 2027の論文は、いまもなお正当性を持っているのか？

なぜほとんどの生産性システムが失敗するのか（そして代わりに何をすべきか）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer