言語モデルを用いた自然言語による構造化データのクエリ

arXiv cs.CL / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMに実行可能なクエリを生成させることにより、自然言語で構造化された非テキストデータセットを問い合わせるためのオープンソース手法を提案する。
  • 標準的なRAGアプローチでは、数値や高度に構造化されたデータに対してうまく機能しない場合があると論じ、その代わりに、ユーザーの意図とデータセットのセマンティクスの両方を反映した合成の質問–回答ペアを生成するパイプラインを用いる。
  • 著者らは、大規模な独自LLMに依存するのではなく、汎用のコモディティ・ハードウェアでの導入を念頭に置き、QLoRAと4-bit量子化によってコンパクトなDeepSeek R1 Distill 8Bモデルを微調整する。
  • スペインのデュランガルデア(Durangaldea)における重要サービスのアクセシビリティデータでの実験では、単言語・多言語・未見の場所シナリオすべてで高い精度が示され、クエリ生成における強い汎化性能が確認される。
  • 結果は、小規模でドメイン特化したモデルが高い精度を達成でき、より広範なマルチデータセットのシステムにも適応可能であり、リソースが限られた環境での利用を支えることを示唆している。

Abstract

本論文は、ユーザーが自然言語を通じて、構造化された非テキストデータセットを照会できるようにするためのオープンソース手法を提示する。数値情報や高度に構造化された情報に苦戦する Retrieval Augmented Generation(RAG)とは異なり、本アプローチでは、実行可能なクエリを生成するようLLMを訓練する。これを可能にするために、基盤となるデータセットの意味論とユーザー意図の両方を捉えた、多様な質問—回答ペアを生成する合成学習データ生成のための原理に基づくパイプラインを導入する。4ビット量子化を用いたQLoRAにより、コンパクトなモデルDeepSeek R1 Distill 8Bを微調整し、汎用のハードウェア上でのデプロイに適したシステムを実現する。スペインのダランガルデアにおける必須サービスへのアクセス可能性を記述したデータセットに対して評価を行った。微調整済みモデルは、単一言語、多言語、および未見の場所のシナリオにわたって高い精度を達成し、頑健な汎化と信頼性の高いクエリ生成の両方を示した。結果は、大規模な専有LLMに依存せずに、このタスクにおいて高い精度を小規模なドメイン特化モデルで実現できることを示しており、この手法は、リソースが制約された環境に適しているだけでなく、より広範なマルチデータセットシステムにも適応可能であることが分かる。スペインのダランガルデアにおける必須サービスへのアクセス可能性を記述したデータセットに対して評価を行った。微調整済みモデルは、単一言語、多言語、および未見の場所のシナリオにわたって高い精度を達成し、頑健な汎化と信頼性の高いクエリ生成の両方を示した。結果は、大規模な専有LLMに依存せずに、このタスクにおいて高い精度を小規模なドメイン特化モデルで実現できることを示しており、この手法は、リソースが制約された環境に適しているだけでなく、より広範なマルチデータセットシステムにも適応可能であることが分かる。