ユニバーサルな表データ埋め込みに向けて:データタスク横断のベンチマーク

arXiv cs.LG / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、表データの埋め込み(tabular foundation model)手法を、セル・行・列・表全体という複数の表現レベルで比較するためのベンチマーク「TEmBed」を提案しています。
  • 既存手法はしばしばタスク固有の評価設定で検証されており、直接比較が難しいという課題があるため、TEmBedは評価の標準化を目的としています。
  • 幅広い表データ表現学習モデルを評価した結果、最適な埋め込み手法は「タスクの種類」と「表現の粒度」の両方に依存することを示しました。
  • これにより、表データに基づく予測やテーブル検索、セマンティック検索といった実運用での表埋め込み選定に役立つ指針が得られ、汎用的な表データ表現モデルの今後の開発にもつながる基盤が提示されています。

Abstract

表形式基盤モデルは、表形式データの普遍的な表現を学習し、タスクやドメインを越えて転移できるようにすることを目的としています。これにより、表の検索、セマンティック検索、表に基づく予測といったアプリケーションが可能になります。こうしたモデルの数が増えているにもかかわらず、実際のところどのアプローチが最も有効かは依然として不明です。というのも、既存手法は多くの場合、タスク固有の設定で評価されているため、直接の比較が難しいからです。そこで本研究では、TEmBed(Tabular Embedding Test Bed)を導入します。TEmBedは、セル、行、列、表という4つの表現レベルにわたって表形式埋め込みを体系的に評価するための包括的なベンチマークです。多様な表形式表現学習モデルを評価することで、使用すべきモデルはタスクと表現レベルに依存することを示します。本結果は、実世界のアプリケーションにおいて表形式埋め込みを選択するための実践的な指針を提供するとともに、より汎用的な表形式表現モデルを開発するための基盤を築きます。