EmDT：詐欺検知のための表形式データ生成におけるエンベディング・ディフュージョン・トランスフォーマー

arXiv stat.ML / 2026/5/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

不均衡な詐欺データでは分類器が多数クラスに偏りがちであるため、論文は詐欺の合成データ生成による対策としてEmDTを提案しています。
EmDTはUMAPクラスタリングで異なる詐欺パターンを特定し、その上で正弦波の位置埋め込みを用いたTransformerのノイズ除去ネットワークを学習することで、拡散過程を通じて特徴間の関係を捉えます。
合成データを生成した後は、表形式データに適した標準的な決定木ベース分類器（例：XGBoost）を用いて最終的な詐欺予測を行います。
実験ではクレジットカード詐欺データセットにおいて、EmDTが既存のオーバーサンプリングや生成手法よりも下流の分類性能を向上させ、プライバシー保護は同等でありつつ、元データの特徴相関も保持できることを示しています。

Abstract

不均衡なデータセットは、分類器がしばしば多数クラスに偏り、まれな不正取引に対してうまく機能しないため、不正検知において困難をもたらします。そのため、この問題を緩和する目的で合成データ生成が一般的に用いられます。本研究では、不正サンプルを生成するための拡散モデルである、クラスタリング埋め込み拡散トランスフォーマ（Clustered Embedding Diffusion-Transformer: EmDT）を提案します。主要な革新点は、UMAPのクラスタリングを活用して異なる不正パターンを特定し、拡散プロセス全体にわたって特徴間の関係を捉えるために、正弦波の位置埋め込みを用いたTransformerのノイズ除去ネットワークを学習することです。合成データが生成された後、分類には標準的な決定木ベースの分類器（例：XGBoost）を用います。この種のモデルは、表形式データセットに対してより適しているためです。クレジットカードの不正検知データセットでの実験により、EmDTは、既存のオーバーサンプリング手法および生成手法と比較して、下流の分類性能を大幅に向上させることが示されました。さらに、プライバシー保護は同等の水準を維持し、元データに存在する特徴間の相関も保持しています。

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

日経XTECH

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

なぜエンタープライズのAIパイロットは失敗するのか

Dev.to

誰も欲しがらないのに、私は毎日使っているPDF機能

Dev.to

EmDT：詐欺検知のための表形式データ生成におけるエンベディング・ディフュージョン・トランスフォーマー

要点

Abstract

関連記事

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

なぜエンタープライズのAIパイロットは失敗するのか

誰も欲しがらないのに、私は毎日使っているPDF機能

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

AIの次に来る技術、投資データで浮き彫りに ランキング上位を徹底解説

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

なぜエンタープライズのAIパイロットは失敗するのか

誰も欲しがらないのに、私は毎日使っているPDF機能

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣