xRFM:表形式データ向けの正確でスケーラブルかつ解釈可能な特徴学習モデル

arXiv stat.ML / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、表形式データ向けの新しい特徴学習モデルである xRFM を提案している。カーネルマシンとツリー構造を組み合わせることで局所的なデータパターンを捉えつつ、非常に大規模な学習セットにもスケールできるとしている。
  • 表形式MLの実務が、近年のAIの進歩に遅れを取ってきたと主張しており、Gradient Boosted Decision Trees(GBDT)が依然として主流である点を踏まえ、xRFMを現代的なニューラル特徴学習の代替として位置づけている。
  • 100の回帰データセットおよび200の分類データセットにわたる実験において、xRFM は31のベースラインに対して最高の性能を達成したと報告されており、特に、新しい表形式の基盤アプローチやGBDTを含む既存の最良手法と競争力が高いとされる。
  • 本手法は、Average Gradient Outer Product によるネイティブな解釈可能性も主張しており、多くのニューラルな表形式モデルに共通する欠点への対処を目指している。

要旨: 表形式データからの推論――連続変数とカテゴリ変数の集合を行列に整理したもの――は、現代の技術と科学の基盤である。にもかかわらず、AIの他の領域で見られてきた爆発的な変化とは対照的に、これらの予測タスクに対するベストプラクティスは比較的変わらず、依然として主に勾配ブースト決定木(GBDTs)の変種に基づいている。ごく最近になって、ニューラルネットワークや特徴学習の手法における近年の進展を踏まえ、表形式データ向けの最先端手法を開発することに改めて注目が集まっている。本研究では、xRFMを導入する。これは、特徴学習カーネルマシンと木構造を組み合わせるアルゴリズムであり、データの局所構造への適応と、実質的に無制限の量の学習データへのスケーリングを両立する。
我々は、近年導入された表形式基盤モデル(TabPFNv2)やGBDTsを含む31の他手法と比較して、xRFMが100の回帰データセットにおいて最良の性能を達成し、また200の分類データセットにおいてもGBDTsを上回る最良手法と競争力のある性能を示す。さらに、xRFMは、平均勾配外積(Average Gradient Outer Product)を通じてネイティブに解釈可能性を提供する。