言語モデルを用いた自然言語による構造化データのクエリ
arXiv cs.CL / 2026/4/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMに実行可能なクエリを生成させることにより、自然言語で構造化された非テキストデータセットを問い合わせるためのオープンソース手法を提案する。
- 標準的なRAGアプローチでは、数値や高度に構造化されたデータに対してうまく機能しない場合があると論じ、その代わりに、ユーザーの意図とデータセットのセマンティクスの両方を反映した合成の質問–回答ペアを生成するパイプラインを用いる。
- 著者らは、大規模な独自LLMに依存するのではなく、汎用のコモディティ・ハードウェアでの導入を念頭に置き、QLoRAと4-bit量子化によってコンパクトなDeepSeek R1 Distill 8Bモデルを微調整する。
- スペインのデュランガルデア(Durangaldea)における重要サービスのアクセシビリティデータでの実験では、単言語・多言語・未見の場所シナリオすべてで高い精度が示され、クエリ生成における強い汎化性能が確認される。
- 結果は、小規模でドメイン特化したモデルが高い精度を達成でき、より広範なマルチデータセットのシステムにも適応可能であり、リソースが限られた環境での利用を支えることを示唆している。




