TabEmb:表アノテーションのための共同セマンティック・構造埋め込み

arXiv cs.LG / 2026/4/22

📰 ニュースModels & Research

要点

  • この論文は、表が各列の意味と列同士の関係の両方を同時に捉える表現を必要とする一方で、テキストでは意味的埋め込みだけで済むことが多い点を踏まえ、表アノテーションを扱います。
  • 従来手法が2次元の表を1次元のトークン列にフラット化してBERTのようなPLMで符号化するため、意味の質が弱くなり、未見・稀な値への汎化が落ち、構造モデリングも劣化しがちだと指摘しています。
  • TabEmbは、意味の符号化と構造モデリングを分離し、LLMが列ごとの意味埋め込みを生成し、その後に列間関係を扱うグラフベースのモジュールが埋め込みへ関係性を注入して、共同のセマンティック・構造表現を作ることで改善します。
  • 実験では、TabEmbが複数の表アノテーション課題において強力なベースラインを一貫して上回ることが示され、コードとデータセットも公開されています。
  • この研究は、2次元から1次元へのフラット化やコンテキスト長の制約を回避し、列間相互作用をグラフで保持する点で有望だと位置づけられています。

要旨: 表の注釈は、Web上およびエンタープライズの表を、下流のNLPアプリケーションで利用可能にするために重要です。意味的に豊かなトークン埋め込みや文埋め込みを学習することがしばしば十分であるテキストデータとは異なり、表は列の構造化された組み合わせであり、有用な表現は列の意味と列間の関係をともに捉える必要があります。既存のモデルは、2次元の表を1次元のトークン列へ線形化し、BERTなどの事前学習済み言語モデル(PLM)でエンコードすることで学習します。しかし、これは限られた意味の質につながり、現代のLLMと比べて、未知または稀な値への一般化が弱くなります。また、2次元から1次元への平坦化とコンテキスト長の制約により、構造のモデリングが劣化します。そこで本研究では、これらの制限に直接対処するTabEmbを提案します。TabEmbは、意味のエンコードと構造モデリングを切り離すことで、問題点を解消します。まずLLMが各列に対して意味的に豊かな埋め込みを生成し、その後、列に対するグラフベースのモジュールがその埋め込みへ関係を注入することで、表の注釈のための、共同の意味-構造表現を得ます。実験の結果、TabEmbはさまざまな表注釈タスクにおいて、強力なベースラインを一貫して上回ることが示されました。ソースコードとデータセットは https://github.com/hoseinzadeehsan/TabEmb で利用可能です