ZTab: テーブル列のドメインベース・ゼロショット注釈

arXiv cs.LG / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ZTabは、ユーザー提供のラベル付きデータを必要とせずに、リレーショナルテーブルの意味論的カラムタイプを自動的に注釈するドメインベースのゼロショットフレームワークを提案し、プライバシー上の懸念とラベリングコストに対処します。
  • サンプルスキーマから疑似テーブルを生成し、それらに注釈LLMをファインチューニングして、ドメイン対応のゼロショット注釈を可能にします。
  • ドメイン構成はゼロショットの広がりと注釈性能の間でトレードオフを提供します。ユニバーサルドメインは純粋なゼロショットに近づき、特定のアプリケーション向けの専門ドメインは、そのドメイン内でより高い精度を達成します。
  • このアプローチは高性能のクローズドソースLLMへの依存を減らし、類似ドメインの再訓練なしで推論時に動作可能とし、再現性のためにコードとデータセットをGitHubで提供します。
要旨:本研究は、リレーショナルテーブルにおける意味論的カラムタイプを自動的に検出する課題、すなわち多くの現実世界のアプリケーションにとって重要なタスクに取り組みます。ゼロショットモデリングは、ユーザー提供のラベル付きトレーニングデータを不要にし、データの収集がコスト高またはプライバシー上の懸念により制限される状況に最適です。しかし、既存のゼロショットモデルは、意味論的カラムタイプの数が多い場合の性能が低下し、表の構造を十分に理解できないこと、そして高性能なクローズドソースLLMへの依存に伴うプライバシーリスクが生じる点で課題を抱えています。私たちは、性能とゼロショットの要件の両方を満たすドメインベースのゼロショットフレームワークZTabを提案します。事前定義された意味タイプの集合とサンプルテーブルスキーマからなるドメイン構成を与えると、ZTabはサンプルスキーマに対して疑似テーブルを生成し、それらの上で注釈LLMをファインチューニングします。ZTabはユーザー固有のラベル付きトレーニングデータに依存しないドメインベースのゼロショットであり、したがって似たドメインのテストテーブルには再訓練が不要です。ドメインベースのゼロショットの3つのケースについて説明します。ZTabのドメイン構成は、ゼロショットの広がりと注釈性能の間のトレードオフを提供します。すべての意味タイプを含むユニバーサルドメインは純粋なゼロショットに近づき、特定のアプリケーションに対応する意味タイプを含む専門化ドメインは、そのドメイン内でより良いゼロショット性能を可能にします。ソースコードとデータセットは https://github.com/hoseinzadeehsan/ZTab で利用可能です。
広告