基礎モデルを蒸留することで一般化加法モデルのための特徴相互作用を選択する

arXiv cs.LG / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、表形式の基礎モデルに基づき事後的な蒸留(post-hoc distillation)を行うことで、表形式モデリングにおける意味のある(高次または文脈依存を含む)特徴相互作用を同定する手法 TabDistill を提案する。
  • TabDistill は、まずデータセットに対して表形式の基礎モデルを適合させ、そのモデルから相互作用帰属(interaction attribution)を適用して顕著な特徴相互作用を抽出する。
  • 抽出された相互作用は、一般化加法モデル(GAMs)における項として挿入することで評価され、予測性能と解釈可能性の両方の向上を目指す。
  • 複数のタスクにまたがる実験では、TabDistill によって発見された相互作用が、先行する相互作用選択アプローチと比べて、下流の GAM の予測精度に対して一貫した改善をもたらすことが示される。
  • 全体として、本研究は表形式の基礎モデルを、表現学習の高い容量(高性能)と解釈可能な加法モデリングの枠組みをつなぐデータ駆動の指針として位置付ける。

要旨: 意味のある特徴量同士の相互作用を特定することは、表形式データ向けの正確で解釈可能なモデルを構築するうえで中核的な課題です。一般化加法モデル(GAMs)は表形式データのモデリングにおいて大きな成功を収めてきましたが、多くの場合、相互作用を選択するためのヒューリスティックな手続きに依存しており、高次の効果や文脈依存の効果を見落とす可能性があります。この課題に取り組むために、我々は、表形式の基盤モデルと事後(post-hoc)の蒸留手法を活用する手法であるTabDistillを提案します。我々の主要な直観は、表形式の基盤モデルが、大規模な表現学習を通じて、豊かで適応的な特徴量間の依存関係を暗黙に学習しているという点です。データセットが与えられると、TabDistillはまず、そのデータセットに対して表形式の基盤モデルを適合させ、次に、その上で事後的な相互作用帰属(interaction attribution)手法を適用することで、そこから注目すべき特徴量同士の相互作用を抽出します。さらに、その相互作用をGAMの項として用いることで、それらを評価します。各種タスクにおいて、TabDistillによって同定された相互作用は、下流のGAMの予測性能において一貫した改善をもたらすことが分かりました。これらの結果は、表形式の基盤モデルが、相互作用の発見に対する効果的でデータ駆動的な指針として機能し、高い容量を持つモデルと解釈可能な加法的枠組みの橋渡しとなり得ることを示唆しています。