要約: テキストからSQLへのパースは、完全スキーマ仮定のもとで著しい進歩を遂げている。しかし、この前提は、データベースに数百のテーブルがあり、膨大でノイズの多いメタデータを含む現実の企業環境では成り立たない。事前に全スキーマを投入する代わりに、エージェントは関連するサブセットのみを能動的に識別し検証しなければならず、本研究で検討する未知スキーマ(Unknown Schema)シナリオが生じる。これに対処するべく、TRUST-SQL(ツールを介した未知スキーマに関する正直な推論)を提案します。私たちはこのタスクを部分的に観測可能なマルコフ決定過程として定式化し、我々の自律エージェントは検証済みメタデータに基づく推論を地固めるための、構造化された四段階のプロトコルを採用します。重要なことに、このプロトコルは我々の新しいDual-Track GRPO戦略の構造的境界を提供します。トークンレベルのマスクドアドバンテージを適用することにより、この戦略は探索報酬を実行結果から分離してクレジット割り当てを解決し、標準GRPOに対して相対的に9.9%の改善をもたらします。5つのベンチマークに跨る広範な実験は、TRUST-SQLが基礎モデルに対して、4B版と8B版のそれぞれで平均絶対改善として30.6%および16.6%を達成することを示しています。驚くべきことに、事前にロードされたメタデータを全く使用せずに動作するにもかかわらず、当フレームワークはスキーマの事前充填に依存する強力なベースラインと同等かそれを上回る結果を一貫して示しています。
TRUST-SQL: 未知のスキーマに対するツール統合型の多ターン強化学習による Text-to-SQL
arXiv cs.AI / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- TRUST-SQL は未知のスキーマ下での Text-to-SQL のためのツール拡張型強化学習フレームワークを導入し、完全なスキーマを事前に読み込むことなく検証済みメタデータに基づく根拠づけを可能にします。
- 本手法は、部分観測可能マルコフ決定過程(POMDP)としてタスクをモデル化し、4段階のプロトコルと探索報酬と実行結果を分離するDual-Track GRPO 戦略を採用します。
- 本手法は、標準の GRPO に対して相対改善率 9.9%、事前に読み込んだメタデータを使用せずに、ベースモデルに対して平均絶対改善率 30.6%(4B)および 16.6%(8B)を達成します。
- 5つのベンチマークにわたる広範な実験により、TRUST-SQL はスキーマ事前充填に依存する強力なベースラインと同等またはそれを上回る性能を示しました。
- 企業データベースにおける未知スキーマのシナリオに対処することで、関連するスキーマのサブセットを効率的に特定し、事前メタデータの必要性を低減します。