DW-Bench：データウェアハウスのグラフトポロジ推論でLLMをベンチマークする

arXiv cs.AI / 2026/4/22

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文は、データウェアハウスのスキーマ上でグラフ・トポロジ推論を行うLLMを評価する新しいベンチマークDW-Benchを提案している。
DW-Benchは、外部キー（FK）関係に加えてデータラインエッジも明示的に扱い、実際のウェアハウスのグラフ構造をより忠実に反映している。
ベンチマークには、5つのスキーマにまたがる、検証可能な正答を持つ自動生成の1,046問が含まれている。
実験の結果、ツール併用型の手法が静的（非ツール）アプローチを大きく上回る一方で、難しい合成（compositional）タイプのサブ問題では性能が頭打ちになることが示されている。

Abstract

本論文では、DW-Benchという新しいベンチマークを紹介する。これは、大規模言語モデル（LLM）をデータウェアハウスのスキーマに対するグラフトポロジ推論で評価し、外部キー（FK）エッジとデータ・リネージ（データ系譜）エッジの両方を明示的に組み込む。ベンチマークは、5つのスキーマにわたって、1,046件の自動生成された検証可能な正解の問題で構成される。実験の結果、ツール支援付き手法は静的アプローチを大幅に上回るが、難しい合成（compositional）サブタイプでは頭打ちになることが示される。