要旨: 自動特徴量エンジニアリングは、表形式学習における予測性能を改善するための効果的なアプローチです。しかし、OpenFEのような拡張・縮小(expand-and-reduce)手法は、入力の次元数が増えるにつれて、ますます計算コストが高くなります。この制約は主に、演算子と特徴量の組み合わせによって生成される候補特徴量の組合せ爆発に起因します。そこで本研究では、特徴量生成の前に候補空間を削減することで効率を高める、構造化された探索空間制御フレームワークであるSCOPE-FEを提案します。SCOPE-FEは、組合せ的な増大の2つの主要要因である「演算子空間」と「特徴量ペア空間」を同時に制御します。まず、OperatorProbingは候補演算子のデータセット固有の有用性を推定し、寄与の小さい演算子を事前に除外します。次に、FeatureClusteringはスペクトル埋め込みとファジィc-meansクラスタリングを用いて構造的に関連する特徴量をグループ化し、その結果、候補生成をクラスタ内で関連のある組み合わせに限定します。さらに、信頼度スコアリング(ReliabilityScoring)を導入し、サブサンプル間での分散を取り入れることで、刈り込み(pruning)の判断を安定化させます。10のベンチマークデータセットでの実験により、SCOPE-FEは既存のベースラインに対して競争力のある予測性能を維持しつつ、特徴量エンジニアリング時間を大幅に削減することを示しました。効率向上は特に高次元データセットで顕著です。これらの結果は、探索空間の構造化された制御が、スケーラブルな自動特徴量エンジニアリングに有効な戦略であることを示唆しています。コードは採択後に公開される予定です。
SCOPE-FE:特徴量エンジニアリングにおける演算子の制御とペアワイズ探索のための構造化手法
arXiv cs.LG / 2026/5/1
💬 オピニオンDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、表形式データに対する自動特徴量エンジニアリングを高次元になるほど効率化するための、構造化探索空間制御フレームワークSCOPE-FEを提案している。
- 演算子—特徴量の組合せによる候補爆発を、特徴量生成の前に「演算子空間」と「特徴量ペア空間」の両方を同時に制御することで解消する。
- OperatorProbingはデータセット固有の演算子の有用性を見積もり、貢献が小さい演算子を事前に削除して探索空間を縮小する。
- FeatureClusteringはスペクトル埋め込みとファジィc-meansクラスタリングで構造的に関連する特徴量をグループ化し、クラスタ内の関連する組合せに限定して特徴量ペア候補を生成する。
- ReliabilityScoringではサブサンプル間の分散を用いて剪定判断を安定化し、10のベンチマーク実験で、特に高次元データで特徴量エンジニアリング時間を大幅に削減しつつ、既存ベースラインに対して競争力のある予測性能を維持できることを示している。

