大規模言語モデルを用いた自動エンドツーエンドデータ統合

arXiv cs.CL / 2026/3/12

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

本論文は、特定のユースケースにパイプラインを適応させるために必要なすべてのアーティファクトを生成するGPT-5.2を用いた自動エンドツーエンドのデータ統合パイプラインを示しています。
アーティファクトには、スキーママッピング、データ正規化のための値マッピング、エンティティマッチングの訓練データ、データ融合における衝突解決ヒューリスティクス選択の検証データが含まれます。
3つのケーススタディ（ビデオゲーム、音楽、企業データ）において、LLMベースのパイプラインは人間設計パイプラインと同等またはそれを上回る成果を達成し、エンドツーエンドのデータセットは同程度の規模と密度を有します。
アプローチの設定コストはケーススタディ1件あたり約$10で、人間のデータエンジニアを雇う費用よりはるかに安いです。

要旨：データ統合パイプラインの設計は通常、パイプラインの構成要素を設定し、訓練データにラベルを付けるためにデータエンジニアの多大な手作業を必要とします。LLMは統合プロセスの個々のステップを扱う際に有望であることが示されていますが、エンドツーエンドのデータ統合パイプライン全体で人間の入力を置換する可能性はまだ検証されていません。この可能性を探る一歩として、特定のユースケースにパイプラインを適応させるために必要なすべてのアーティファクトを生成するGPT-5.2を用いた自動データ統合パイプラインを提示します。これらのアーティファクトは、スキーママッピング、データ正規化のための値マッピング、エンティティマッチングの訓練データ、およびデータ融合における衝突解決ヒューリスティクスの選択を検証するデータです。我々は、このLLMベースのパイプラインの性能を、ビデオゲーム、音楽、企業関連データの統合を必要とする3つのケーススタディに沿って人間が設計したパイプラインの性能と比較します。実験の結果、LLMベースのパイプラインは、人間設計のパイプラインと同等の結果を出すことができ、場合によってはより良い結果を得ることがあります。エンドツーエンドで見ると、人間とLLMのパイプラインは、同等の規模と密度の統合データセットを生成します。LLMがパイプラインを設定する場合のコストはケーススタディ1件あたり約$10であり、同じ作業を人間のデータエンジニアに依頼する費用のほんの一部に過ぎません。