概要: 本番環境におけるテキストからSQL(T2SQL)の評価は、既存ベンチマークが扱っていない根本的な課題を抱えています。現在の評価手法、すなわちルールベースのSQL一致や、スキーマに依存するセマンティックパーサは、正解となるクエリと、構造化されたデータベースのスキーマへのアクセスを前提としています。しかし、これらの条件は現実の導入環境ではほとんど満たされません。このギャップにより、本番のT2SQLエージェントは開発時のテスト以外ではほぼ評価されず、フィードバック機構のないまま品質が静かに劣化してしまいます。私たちは、STEF(Schema-agnostic Text-to-SQL Evaluation Framework)を提案します。これは、本番環境にネイティブな評価システムであり、データベースのスキーマや参照クエリを必要とせず、ユーザの質問に対する自然言語入力、強化された再定式化、生成されたSQLのみを用いて動作します。STEFは自然言語とSQL表現の両方からセマンティックな仕様を抽出し、正規化された特徴のアラインメントを実行し、フィルタのアラインメント、セマンティックな評決、評価器の信頼度を包含する複合指標によって、解釈可能な0〜100の精度スコアを出力します。主な貢献は次のとおりです: 第1級の評価シグナルとしての、強化された質問品質の検証、プロンプトのテンプレートによる、アプリケーション固有で設定可能なルール注入、そして本番に堅牢な正規化によるGROUP BYの許容、ORDER BYのデフォルト、LIMITのヒューリスティックの取り扱いです。実証結果は、STEFがスキーマ非依存で、継続的な本番モニタリングとエージェント改善のフィードバックループを可能にし、構造化クエリ評価を初めて大規模に実現できることを示しています。
本番環境向けテキスト対SQLシステムにおけるSQL精度のエージェント非依存評価
arXiv cs.AI / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 既存のテキスト対SQL(T2SQL)評価手法は、グラウンドトゥルースのSQLや構造化されたデータベースのスキーマへのアクセスを前提にしていることが多く、本番環境ではそれが満たされにくいという課題があります。
- 本論文では、STEFというスキーマ非依存の本番環境向け評価フレームワークを提案し、自然言語の入力(質問と強化されたリフォームレーション)と生成されたSQLのみから評価スコアを算出することで、スキーマや参照クエリを不要にしています。
- STEFは自然言語とSQLの両方から意味仕様を抽出し、正規化された特徴を整合させ、フィルタ整合・意味判定・評価器の確信度を含む複合指標に基づいて解釈可能な0〜100の精度スコアを出力します。
- さらに、質問品質の検証を第一級の評価信号として組み込み、プロンプトテンプレートによるアプリケーション固有のルール注入を設定可能にし、GROUP BY/ORDER BY/LIMITの本番向け正規化にも頑健なヒューリスティックを備えています。
- 実験結果として、STEFはスキーマ依存なしで本番での継続モニタリングとT2SQLエージェント改善のフィードバックループを可能にし、大規模な構造化クエリ評価に道を開くと主張しています。




