EmDT:詐欺検知のための表形式データ生成におけるエンベディング・ディフュージョン・トランスフォーマー

arXiv stat.ML / 2026/5/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 不均衡な詐欺データでは分類器が多数クラスに偏りがちであるため、論文は詐欺の合成データ生成による対策としてEmDTを提案しています。
  • EmDTはUMAPクラスタリングで異なる詐欺パターンを特定し、その上で正弦波の位置埋め込みを用いたTransformerのノイズ除去ネットワークを学習することで、拡散過程を通じて特徴間の関係を捉えます。
  • 合成データを生成した後は、表形式データに適した標準的な決定木ベース分類器(例:XGBoost)を用いて最終的な詐欺予測を行います。
  • 実験ではクレジットカード詐欺データセットにおいて、EmDTが既存のオーバーサンプリングや生成手法よりも下流の分類性能を向上させ、プライバシー保護は同等でありつつ、元データの特徴相関も保持できることを示しています。

Abstract

不均衡なデータセットは、分類器がしばしば多数クラスに偏り、まれな不正取引に対してうまく機能しないため、不正検知において困難をもたらします。そのため、この問題を緩和する目的で合成データ生成が一般的に用いられます。本研究では、不正サンプルを生成するための拡散モデルである、クラスタリング埋め込み拡散トランスフォーマ(Clustered Embedding Diffusion-Transformer: EmDT)を提案します。主要な革新点は、UMAPのクラスタリングを活用して異なる不正パターンを特定し、拡散プロセス全体にわたって特徴間の関係を捉えるために、正弦波の位置埋め込みを用いたTransformerのノイズ除去ネットワークを学習することです。合成データが生成された後、分類には標準的な決定木ベースの分類器(例:XGBoost)を用います。この種のモデルは、表形式データセットに対してより適しているためです。クレジットカードの不正検知データセットでの実験により、EmDTは、既存のオーバーサンプリング手法および生成手法と比較して、下流の分類性能を大幅に向上させることが示されました。さらに、プライバシー保護は同等の水準を維持し、元データに存在する特徴間の相関も保持しています。