概要: 表形式データは、医療、工学、金融など、さまざまな実世界の分野で重要な役割を果たしてきました。深層学習の最近の成功は、Transformer、ResNet などを基盤とする表形式データ学習法を多く生み出しました。一般に、既存の深層表形式機械学習法は、学習内学習と事前学習の二つのパラダイムに沿っています。学習内法は、ネットワークをゼロから訓練する必要があるか、表現を規制する追加の制約を課すことがありますが、それにもかかわらず複数のタスクを同時に訓練して学習を困難にします。一方、事前学習法はプリテキスト課題を設計して事前訓練を行い、その後タスク固有のファインチューニングを実施しますが、事前知識を前提に多くの追加訓練労力を要します。
本論文では、TRC(Tabular Representation Corrector、表形式表現補正器)と呼ぶ新しい深層表形式表現補正手法を提案し、訓練済みの任意の深層表形式モデルの表現を、そのパラメータを変更することなく、モデル非依存的な方法で強化します。具体的には、予測を妨げる表現のシフトと表現の冗長性を対象とし、以下の2つのタスクを提案します。すなわち、(i) Tabular Representation Re-estimation(表形式表現の再推定)— 表形式表現の固有のシフトを算出するシフト推定器を訓練してそれを軽減することにより表現を再推定する、そして (ii) Tabular Space Mapping(表形式空間マッピング)— 上記の再推定表現を座標推定器を介して軽量埋め込みベクトル空間へ変換し、重要な予測情報を保持して冗長性を最小化する。この2つのタスクは、元のモデルを変更することなく深層表形式モデルの表現を共同で強化し、したがって高い効率性を享受します。最後に、TRC を組み合わせた最先端の深層表形式機械学習モデルを、さまざまな表形式ベンチマークで広範な実験を行い、一貫した優越性を示しています。
ディープ表形式データ表現補正器
arXiv cs.LG / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- TRCは、パラメータを変更せずに、訓練済みの深層表形式データモデルの表現を強化する、モデル非依存の深層表現補正器です。
- 表現のシフトと冗長性に対処するため、表形式データ表現再推定と表形式データ空間マッピングという2つのタスクを導入します。
- 表形式データ表現再推定は、表現を再推定するためのシフト推定器を訓練します。一方、表形式データ空間マッピングは、それらを予測情報を保持する軽量埋め込み空間へ変換します。
- 様々なベンチマークにおける最先端の深層表形式データモデルを対象とした実験で、TRCが一貫して優位性を示すことが確認されました。

