要約: 埋め込みは、データ駆動型の機械学習モデルを、大規模言語モデル(LLMs)の世界知識で強化する強力な手段です。ところが、表形式予測のための効果的なLLMベースの埋め込みパイプラインを設計する方法については、十分な証拠が乏しいです。本研究では、前処理戦略8種、埋め込みモデル16種、下流モデル2種を網羅する256のパイプライン設定を系統的にベンチマークします。私たちの結果は、LLMsの事前知識を組み込むことが予測性能を改善するかどうかは、特定のパイプライン設計に大きく依存することを示しています。一般に、埋め込みを結合する方が、元の列を埋め込みで置き換えるよりも優れている傾向があります。より大きな埋め込みモデルはより良い結果を生み出す傾向がありますが、公開リーダーボードのランキングやモデルの人気は、パフォーマンス指標としては乏しいです。最後に、勾配ブースティング決定木は下流モデルとして強力である傾向があります。本研究の知見は、研究者と実務者に対して、表形式予測タスクのためのより効果的な埋め込みパイプラインを構築するための指針を提供します。
返却形式: {"translated": "翻訳されたHTML"}




