表形式データモデルへの世界知識の埋め込み: 埋め込みパイプライン設計のベストプラクティスに向けて

arXiv cs.LG / 2026/3/19

💬 オピニオンModels & Research

共有:

要点

本論文は、表形式データ予測のための256種類の埋め込みベースのパイプライン構成を体系的にベンチマークし、8つの前処理戦略、16の埋め込みモデル、2つの下流モデルをカバーしている。
LLM由来の世界知識を埋め込む利点は、特定のパイプライン設計に強く依存することが判明した。埋め込みを連結する手法は、元のカラムを置換する手法を一般的に上回る。
より大きな埋め込みモデルは、パフォーマンスが向上する傾向がある一方で、公的リーダーボードのランキングやモデルの人気度は、実際の性能の指標としては役に立たない。
勾配ブースティング決定木（GBDT）が、これらの埋め込みパイプラインにおける強力な下流モデルとして現れる。
本研究は、表形式データの予測タスクに対して、埋め込みパイプラインをより効果的に設計するための実践的な指針を研究者と実務者に提供する。

要約: 埋め込みは、データ駆動型の機械学習モデルを、大規模言語モデル（LLMs）の世界知識で強化する強力な手段です。ところが、表形式予測のための効果的なLLMベースの埋め込みパイプラインを設計する方法については、十分な証拠が乏しいです。本研究では、前処理戦略8種、埋め込みモデル16種、下流モデル2種を網羅する256のパイプライン設定を系統的にベンチマークします。私たちの結果は、LLMsの事前知識を組み込むことが予測性能を改善するかどうかは、特定のパイプライン設計に大きく依存することを示しています。一般に、埋め込みを結合する方が、元の列を埋め込みで置き換えるよりも優れている傾向があります。より大きな埋め込みモデルはより良い結果を生み出す傾向がありますが、公開リーダーボードのランキングやモデルの人気は、パフォーマンス指標としては乏しいです。最後に、勾配ブースティング決定木は下流モデルとして強力である傾向があります。本研究の知見は、研究者と実務者に対して、表形式予測タスクのためのより効果的な埋め込みパイプラインを構築するための指針を提供します。

返却形式: {"translated": "翻訳されたHTML"}