EmDT:詐欺検知のための表形式データ生成におけるエンベディング・ディフュージョン・トランスフォーマー
arXiv stat.ML / 2026/5/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 不均衡な詐欺データでは分類器が多数クラスに偏りがちであるため、論文は詐欺の合成データ生成による対策としてEmDTを提案しています。
- EmDTはUMAPクラスタリングで異なる詐欺パターンを特定し、その上で正弦波の位置埋め込みを用いたTransformerのノイズ除去ネットワークを学習することで、拡散過程を通じて特徴間の関係を捉えます。
- 合成データを生成した後は、表形式データに適した標準的な決定木ベース分類器(例:XGBoost)を用いて最終的な詐欺予測を行います。
- 実験ではクレジットカード詐欺データセットにおいて、EmDTが既存のオーバーサンプリングや生成手法よりも下流の分類性能を向上させ、プライバシー保護は同等でありつつ、元データの特徴相関も保持できることを示しています。




