CLARITY：対話型NL2SQLシステムにおける会話上の曖昧さと非回答可能性を扱うためのフレームワークおよびベンチマーク

arXiv cs.CL / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「Clarity」を提案し、特にユーザーの追加の明確化が不十分な対話型シナリオにおいて、現実的な曖昧さや非回答可能性の状況でNL2SQLシステムをベンチマークできるようにします。
Clarityは制約駆動のパイプラインを用いて、実行可能なSQLを多面的な曖昧さを含むクエリへと自動変換し、根拠のある会話の継続やスキーマレベルのメタデータも付与してベンチマークデータを生成します。
SpiderとBIRDでの評価では、強力なLLMベースを含む主要なNL2SQLシステムが、多面的な曖昧さの下で大きな性能低下を示すことが分かりました。
その結果、現在のシステムは曖昧さを検出できる場合があっても、背後にあるスキーマレベルの原因を正確に特定（ローカライズ）して解決するのが難しいことが示唆されます。
全体として、産業レベルの対話型NL2SQL導入を前提にした、より頑健な曖昧さ検出と解決の必要性を強調しています。

要旨: 実業環境に導入されたNL2SQLシステムは、多義的、または回答不能なクエリに遭遇することが多く、特に不完全なユーザの明確化を伴うインタラクティブなシナリオではその傾向が顕著です。既存のベンチマークは、通常、単一の曖昧さを前提とし、解決のためのユーザインタラクションに依存しています。しかし、現実的な失敗の形（failure mode）を見落としています。
本稿では、Clarityというフレームワークを提案します。これは、単回および複数回の両方の設定にわたって、多面的な曖昧さと多様なユーザ行動を備えたNL2SQLベンチマークを自動生成します。制約駆動のパイプラインを用いて、Clarityは実行可能なSQLを曖昧なクエリへと変換し、根拠のある対話の継続（conversational continuations）やスキーマレベルのメタデータを付加します。
SpiderおよびBIRDでの実験的評価では、強力なLLMに基づくものを含む主要なNL2SQLシステムが、多面的な曖昧さのもとで大幅な性能劣化を起こすことが示されました。これらのシステムはしばしば曖昧さを検出しますが、根本にあるスキーマレベルの情報源を正確に特定し、解決するのが難しい状況です。以上の結果は、産業グレードのNL2SQLシステムにおける、より頑健な曖昧さの検出と解決の必要性を浮き彫りにします。