要旨: 表形式の基盤モデル(TFM)は、合成データ生成プロセスに対するメタ学習によって、小規模な表データセットにおける最先端のゼロショット精度を達成し、注釈付き大規模コーパスを用意できない実務家にとって非常に魅力的です。 しかしながら、それらのインコンテキスト学習メカニズムは、入力が概ねクリーンであることを前提としています。実世界のデータに存在する欠損値、外れ値、重複は、事前分布の不一致(prior mismatch)を引き起こし、精度と信頼度のキャリブレーションの両方を同時に劣化させます。 この不一致を修正するには、静的な前処理ルールでは予測できない、クリーニング演算子の相互作用に関する逐次的な意思決定が必要であり、これは強化学習~(RL)に自然に適合します。 私たちは、表形式データのクリーニングを事前分布の整合として定式化する最初の深層強化学習フレームワークであるL2C2を導入します。学習された方策は、汚れた入力とTFMの合成事前分布との間の分布ギャップを最小化するように演算子の系列を選択します。 OpenMLベンチマークデータセット10件に対する6つの実験により、次が示されます。1) 7種類の報酬設計のうち3つが、退化した自明なクリーニング戦略へと崩壊する—原理に基づいた報酬設計は科学的に非自明である。2) 提案する新規のTFMAwareReward報酬は、4/10のデータセットで構造的に異なるパイプラインを選択し、分岐したそれらのケースにおいてTabPFN精度をより高く達成する(平均0.851 vs. 0.843;Wilcoxon p=0.063, n=4)一方で、決して性能を下回らない。3) パラメータ化されたクリーニング操作は、9/10のデータセットで最良に見つかったパイプラインの報酬を改善する(Wilcoxon p=0.004)。そして4) 1つの単一のソースデータセットで事前学習された方策は、3つの保持データセットすべてにおいて、2,000ステップの微調整チェックポイントでスクラッチ学習を上回る(全微調整後で最大+28.8%)。これは、事前分布整合の知識がデータセット間で転移することを示しています。 これらの結果は、事前分布の整合が、実世界の表データに対してTFMを運用するための原理に基づくデータ準備戦略であることを確立します。
表形式ファンデーションモデルのための事前整合型データクレンジング
arXiv cs.LG / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 表形式ファンデーションモデル(TFM)は合成データに対するメタラーニングにより小規模な表データでも高いゼロショット精度を示す一方、欠損値・外れ値・重複などが現実データに含まれることで「事前(prior)の不一致」が生じ、精度と信頼度校正の両方が低下します。
- 本稿では L2C2 を提案し、表データのクリーニングを事前整合として扱う深層強化学習フレームワークで、TFM の合成事前に対する分布ギャップを最小化するようにクリーニング演算子を逐次的に適用する方策を学習します。
- OpenML の10データセットでの実験では、報酬設計が非自明であり、いくつかの報酬定義では退化した“単純な”クリーニング戦略に崩れることが示されます。一方で提案する TFMAwareReward は、構造的に異なるクリーニング手順を選び得るケースでTFM精度を改善し、かつ不利になることはありません。
- パラメータ化されたクリーニング操作は 9/10 データセットで最良のパイプライン報酬を向上させ、さらに単一データセットで事前学習した方策は、学習を開始して早い微調整段階からスクラッチ学習を上回り、最終的には最大 +28.8% まで改善するなど、データセット間で事前整合の知識が移転することが示されます。
- 結果として、事前整合型の逐次クリーニングは、汚れた現実の表データにTFMを展開するための原理的なデータ前処理戦略であることを裏付けています。



