要旨: テキストからSQLへのタスクに、大規模で独自のAPIベース言語モデルを適用することは、業界において大きな課題です。巨大でスキーマに重いプロンプトに依存すると、1トークンあたりのAPIコストが高額になり、さらに高いレイテンシが発生するため、スケーラブルな本番展開が妨げられます。私たちは、CriQにおける対話型ボット向けに設計された、自己ホスティングの8Bパラメータ専用モデルを提示します。CriQは、インド最大のファンタジースポーツ・プラットフォームDream11の姉妹アプリであり、250百万人超のユーザを抱えています。このボットは、クリケットの統計に関するユーザの質問に答えます。新規の2段階の教師あり微調整アプローチにより、モデルはデータベースのスキーマ全体を内部化でき、長いコンテキストのプロンプトを不要にします。これにより、入力トークンを99%以上削減し、17kトークンのベースラインから100トークン未満へと抑えます。また、高コストな外部API呼び出しを、効率的なローカル推論に置き換えます。その結果得られるシステムは、実行成功率98.4%および意味的正確性92.5%を達成し、GoogleのGemini Flash 2.0を用いたプロンプトエンジニアリングのベースライン(実行成功率95.6%、意味的正確性89.4%)を大幅に上回ります。これらの結果は、大規模な本番環境において、領域特化された自己ホスティング言語モデルを用いることで、高精度かつ低レイテンシのテキストからSQLアプリケーションへ実用的に到達できる道筋を示しています。
Schema on the Inside: 大規模における高効率テキストからSQLへのための二段階ファインチューニング手法
arXiv cs.CL / 2026/3/26
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模な独自APIのLLMと、スキーマを大量に含む長いプロンプトに依存する本番のテキストからSQLシステムにおける高コストと低遅延性の課題を扱う。
- データベース全体のスキーマを自己ホスト型の8Bモデルに内在化させることで、入力トークンを99%以上削減する(約17kから100未満)二段階の教師ありファインチューニング手法を提案する。
- このアプローチは、Dream11の姉妹アプリであるCriQ向けのクリケット統計会話ボットで実装され、高価な外部API呼び出しを効率的なローカル推論に置き換える。
- 報告されている性能では、実行成功率98.4%、意味的精度92.5%を達成し、Gemini Flash 2.0を用いたプロンプト設計ベースライン(実行95.6%、意味的精度89.4%)を上回る。
- 全体として、本研究は、小規模な自己ホスト型モデルとスキーマを意識したファインチューニングによって、低遅延かつ高精度なテキストからSQLを実現するスケーラブルでドメイン特化した道筋を提示している。