ReViSQL: 人間レベルの Text-to-SQL を達成

arXiv cs.CL / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

ReViSQL は、より複雑な AI アーキテクチャを必要とせず、BIRD Text-to-SQL ベンチマークで人間レベルの精度を達成する、洗練されたフレームワークを導入します。
検証可能な報酬を用いた強化学習（RLVR）を、SQL専門家が選定・訂正した2,500件のデータセット BIRD-Verified に適用することで成り立っています。データクリーニングのワークフローは、BIRD訓練セットの一部のエラーを61.1%のエラー修正しました。
著者らは、データ品質を改善するだけで、同じ RLVR 設定下で単一生成の精度を8.2–13.9%向上させることを示しています。
実行時の照合と多数決による推論時スケーリングにより、さらに精度と信頼性が向上します。
専門家検証済みの BIRD Mini-Dev において、ReViSQL-235B-A22B は 93.2% の実行精度に達し、人間レベルの精度（92.96%）を上回り、従来のオープンソース SOTA を 9.8% 上回っています。一方、より小さな ReViSQL-30B-A3B は、1クエリあたりのコストを 7.5倍低く抑えつつ SOTA に匹敵します。

要旨：
自然言語をSQLへ翻訳する（Text-to-SQL）は、データベース研究とデータ分析アプリケーションの双方における重要な課題である。最近の取り組みは、Text-to-SQLタスクを手動で設計された段階的なパイプラインに分解する大規模言語モデルやAIエージェントを開発することで、SQL推論を強化することに焦点を当てている。しかし、これらの広範なアーキテクチャ設計の努力にもかかわらず、重要なギャップが残っている。最先端（SOTA）のAIエージェントでさえ、BIRDベンチマークで人間レベルの精度を達成していない。本論文では、このギャップを埋めるには、さらなるアーキテクチャの複雑さではなく、基盤モデルのSQL推論を向上させるクリーンなトレーニングデータが必要であることを示します。
ReViSQLを導入します。これは、BIRDで初めて人間レベルの精度を達成する簡素化されたフレームワークです。複雑なAIエージェントの代わりに、ReViSQLは検証可能な報酬（RLVR）を用いた強化学習を、BIRD Trainセットに基づく2,500件の検証済みText-to-SQLインスタンスからなるデータセット、BIRD-Verified上で活用します。BIRD-Verifiedの構築には、SQL専門家を含むデータ修正と検証のワークフローを設計します。BIRD Trainのサブセットにおけるデータエラーを特定し、61.1%を修正しました。BIRD-Verifiedで訓練することで、データ品質を向上させるだけでも、同じRLVRアルゴリズムの下で単一生成の精度が8.2–13.9%向上することを示します。さらなる性能向上のため、実行時のスケーリングを、実行ベースの照合と多数決投票によって実現します。実証的には、2つのモデルサイズ、ReViSQL-235B-A22BとReViSQL-30B-A3Bで我々のフレームワークの優位性を示します。専門家検証済みのBIRD Mini-Devセットにおいて、ReViSQL-235B-A22Bは93.2%の実行精度を達成し、代理の人間レベルの精度（92.96%）を上回り、以前のオープンソースSOTA手法を9.8%上回ります。私たちの軽量なReViSQL-30B-A3Bは、前述のSOTAと同等の性能を、1クエリあたりのコストを7.5倍低くして達成します。