要旨:エージェント性強化学習(RL)は複雑なタスクに有望を示しますが、Text-to-SQLは依然として主に単一ターンのパラダイムに限定されています。主なボトルネックは報酬割り当て問題です。従来のパラダイムでは、報酬は最終ターンのフィードバックのみによって決定され、中間の過程を無視し、報酬の評価をあいまいにします。これに対処するため、エージェント性SQL(Agentic SQL)を提案します。普遍的な二層の報酬機構を備え、効果的な軌道レベルの評価と密度の高いステップレベルの信号を提供するフレームワークです。まず、Aggregated Trajectory Reward(ATR)を導入してマルチターンの報酬割り当てを解決します。非対称遷移行列を用いて、ATRはプロセス志向のスコアを集約し、継続的な改善を促進します。Lyapunov安定性理論を活用し、ATRがエネルギー散逸演算子として機能することを証明します。これにより、サイクルフリーなポリシーと単調収束が保証されます。次に、Column-Set Matching Reward(CSMR)は即時のステップレベル報酬を提供して、スパース性を緩和します。各ターンでクエリを実行することにより、CSMRは二値(0/1)のフィードバックを部分的な正確性に基づく密な[0, 1]信号へ変換します。BIRDでの評価は、二値報酬GRPOより5%の利得を示しました。特筆すべきは、同一モデルを使用した場合、私たちのアプローチはBIRDおよびSpider 2.0でSOTA Arctic-Text2SQL-R1-7Bを上回り、Text-to-SQLを堅牢なマルチターンエージェント・パラダイムへと推進します。
SQL-ASTRA: 列集合マッチングと軌跡集約を用いた Agentic SQL の希薄なフィードバックの緩和
arXiv cs.AI / 2026/3/18
📰 ニュース
要点
- 本記事では Agentic SQL を紹介します。これは、単一ターンのパラダイムを超える多ターンの Text-to-SQL タスクに対処するために、二層の報酬システムを追加するフレームワークです。