DW-Bench:データウェアハウスのグラフトポロジ推論でLLMをベンチマークする

arXiv cs.AI / 2026/4/22

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、データウェアハウスのスキーマ上でグラフ・トポロジ推論を行うLLMを評価する新しいベンチマークDW-Benchを提案している。
  • DW-Benchは、外部キー(FK)関係に加えてデータラインエッジも明示的に扱い、実際のウェアハウスのグラフ構造をより忠実に反映している。
  • ベンチマークには、5つのスキーマにまたがる、検証可能な正答を持つ自動生成の1,046問が含まれている。
  • 実験の結果、ツール併用型の手法が静的(非ツール)アプローチを大きく上回る一方で、難しい合成(compositional)タイプのサブ問題では性能が頭打ちになることが示されている。

Abstract

本論文では、DW-Benchという新しいベンチマークを紹介する。これは、大規模言語モデル(LLM)をデータウェアハウスのスキーマに対するグラフトポロジ推論で評価し、外部キー(FK)エッジとデータ・リネージ(データ系譜)エッジの両方を明示的に組み込む。ベンチマークは、5つのスキーマにわたって、1,046件の自動生成された検証可能な正解の問題で構成される。実験の結果、ツール支援付き手法は静的アプローチを大幅に上回るが、難しい合成(compositional)サブタイプでは頭打ちになることが示される。