概要: 大規模言語モデル(LLM)はText-to-SQLの性能を大きく進歩させてきましたが、既存のベンチマークは主として西洋の文脈や単純化されたスキーマに偏っており、現実の非西洋のアプリケーションにおけるギャップが残されています。私たちは、多様なインド系言語にまたがるクロスリンガル意味解析(semantic parsing)を評価するための、多言語Text-to-SQLベンチマーク「IndicDB」を提案します。リレーショナルスキーマは、National Data and Analytics Platform(NDAP)やIndia Data Portal(IDP)を含むオープンデータ・プラットフォームから取得しており、現実的な行政データの複雑さを担保します。IndicDBは、237テーブルにまたがる20のデータベースで構成されています。非正規化された政府データを豊かなリレーショナル構造へ変換するために、反復型の3エージェント・フレームワーク(Architect、Auditor、Refiner)を用いて、構造的な厳密性と高いリレーショナル密度(データベースあたり11.85テーブル、結合の深さは最大6)を確保します。私たちのパイプラインは、値を考慮し、難易度を調整し、結合を強制する設計であり、英語、ヒンディー語、さらに5つのインド系言語に対して15,617件のタスクを生成します。私たちは、最先端モデル(DeepSeek v3.2、MiniMax 2.7、LLaMA 3.3、Qwen3)について、7つの言語バリアントにわたるクロスリンガルな意味解析性能を評価します。結果は、英語からインド系言語への性能低下が9.00%であることを示し、「Indic Gap(インド系ギャップ)」が、より難しいスキーマの結び付け、構造的な曖昧性の増大、そして限られた外部知識によって引き起こされていることを明らかにします。IndicDBは、多言語Text-to-SQLのための厳密なベンチマークとして機能します。コードとデータ: https://anonymous.4open.science/r/multilingualText2Sql-Indic--DDCC/
IndicDB -- インドの言語における多言語テキストからSQLへの能力をベンチマークする
arXiv cs.CL / 2026/4/16
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- IndicDBは、多言語のText-to-SQLベンチマークとして導入される。先行ベンチマークは主に西洋の文脈や単純化されたスキーマを扱っていたのに対し、本ベンチマークは実世界のインド言語環境を対象とする。
- ベンチマークは、オープンな政府・行政データプラットフォーム(NDAP、IDP)から取得した現実的なリレーショナルデータベースのスキーマを用い、20のデータベースと237のテーブルを含む。結合構造は複雑で、結合の深さは最大6までとなる。
- 非正規化されたデータを、豊かな構造を備えたスキーマへ変換するために、反復的な3者エージェント・パイプライン(Architect、Auditor、Refiner)を用いる。ここでは結合の妥当性を強制し、タスクの難易度を調整する。
- IndicDBは、英語・ヒンディー語・さらに5つのインド系言語で、15,617の価値(value)を考慮したタスクを生成し、多言語間の意味解析について複数の最先端モデルを評価する。
- 結果は「Indic Gap」を明らかにする。英語からインド系言語への性能低下は9.00%であり、その要因は、より難しいスキーマの結び付け、より大きい構造的曖昧性、そして限られた外部知識にあるとされる。


