回帰における条件付き密度推定のためのタブラー基盤モデルのベンチマーク

arXiv cs.LG / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、回帰における条件付き密度推定（CDE）に対して、タブラー基盤モデルの派生（例：TabPFN/TabICLスタイルのモデル）をベンチマークし、点推定ではなく予測の全分布の復元に焦点を当てる。
学習データサイズ（50〜20,000）と複数のベースラインに対する、39の実世界のタブラー・データセットでの評価により、基盤モデルが概ね密度精度、対数尤度、CRPSにおいて最良の性能を示し、オフ・ザ・シェルフなCDEの有効性が強く示された。
キャリブレーションは少数サンプル条件では競争力があるが、特定のデータセット／指標ではデータサイズが増えるにつれて、専門的なニューラルCDEベースラインに後れを取ることがある。これは事後的な再キャリブレーションにより信頼性が改善し得ることを示唆する。
SDSS DR18の測光赤方偏移の事例研究では、50,000銀河で学習したTabPFNの変種が、500,000銀河という全データで学習したベースラインを上回る。これはサンプル効率の利点を示している。
これらの結果は、タブラー基盤モデルを汎用的な条件付き密度推定器として位置づけ、点予測と比べてCDEの性能が体系的に評価されていなかったギャップを埋めるものである。

Abstract

条件付き密度推定（CDE）――表形式の共変量が与えられたもとで応答の条件付き分布全体を復元すること――は、不均一分散（ヘテロスケダスティシティ）、多峰性（マルチモダリティ）、非対称な不確実性が存在する状況で不可欠である。TabPFNやTabICLのような最近の表形式の基盤モデルは、予測分布を自然に生成するが、汎用的なCDE手法としての有効性は、点予測に関する評価とは対照的に、体系的に検証されていない。点予測は十分に研究されている。そこで本研究では、3つの表形式の基盤モデルのバリアントを、39の実世界データセットに対して、訓練サイズを50から20,000まで変化させつつ、密度精度、較正、計算時間をカバーする6つの指標にもとづいて、多様なパラメトリック、木構造ベース、ニューラルCDEのベースラインと比較ベンチマークする。全てのサンプルサイズにおいて、基盤モデルは、テストしたデータセットの大多数で、最良のCDE損失、対数尤度、CRPSを達成する。較正は少数サンプルでは競争力があるものの、いくつかの指標とデータセットでは、大きいサンプルサイズにおいてタスク固有のニューラルベースラインに遅れをとっており、事後的な再較正（post-hoc recalibration）が有益な補完となり得ることを示唆している。SDSS DR18を用いた測光赤方偏移（photometric redshift）のケーススタディでは、50,000の訓練銀河にさらしたTabPFNが、500,000銀河の全データセットで訓練したあらゆるベースラインを上回った。以上を総合すると、これらの結果は、表形式の基盤モデルが強力な汎用の条件付き密度推定器（off-the-shelf conditional density estimators）であることを確立する。