要旨: 合成の表形式データに対する第3の評価次元として、行動忠実度(behavioral fidelity)を提案します。これは、生成データが現実世界のエンティティの活動を特徴づける時間的・逐次的・構造的な行動パターンをどの程度保持しているかを測定するものです。既存の枠組みでは、統計的忠実度(周辺分布および相関)と下流の有用性(合成訓練モデルに対する分類器のAUROC)を評価しますが、実際に運用上の検出・分析システムが依拠している行動シグナルを検証するものはありません。私たちは、4種類の行動的な詐欺パターン(P1〜P4)の分類法を形式化します。これには、イベント間隔、バースト構造、多アカウントのグラフ・モチーフ、そして速度ルールのトリガー率が含まれます。さらに、実データのノイズフロアに調整した劣化比率(degradation ratio)指標を定義します(1.0 = 実データの変動に一致、k = k倍悪化)。そして、支配的なパラダイムである行ごと独立な生成器は、P3のグラフ・モチーフを構造的に再現できないこと(命題1)と、エンティティ内のIET自己相関が正でないこと(命題2)を証明します。そのため、詐欺シーケンスに固有の正のバースト指紋は、アーキテクチャや訓練データ量のいかんにかかわらず達成不可能です。IEEE-CIS Fraud DetectionおよびAmazon Fraud Datasetに対して、CTGAN、TVAE、GaussianCopula、TabularARGNをベンチマークします。4手法はいずれも深刻に失敗します。IEEE-CISの複合劣化比率は、TVAEで24.4倍からGaussianCopulaで39.0倍の範囲です。Amazon FDBでは、行ごと独立な生成器が81.6〜99.7倍のスコアを示す一方で、TabularARGNは17.2倍を達成します。生成器固有の失敗モードとその解決策を記録します。P1〜P4の枠組みは、ヘルスケアやネットワークセキュリティを含む、エンティティ単位の逐次表形式データを扱うあらゆる領域に拡張できます。評価枠組みをオープンソースとして公開します。
合成タブラー・ジェネレータは行動型の不正パターンを保持できない:時間・速度・マルチアカウント信号に関するベンチマーク
arXiv cs.LG / 2026/4/16
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、合成タブularデータに対する新たな評価次元として「behavioral fidelity(行動の忠実度)」を提案し、実際の検知システムで用いられる時間的・連続的・構造的な不正信号を生成器がどの程度保持できているかに焦点を当てる。
- 行動型の不正パターンとして4種類(P1〜P4)を定義する。これには、イベント間のタイミング、バースト構造、マルチアカウントのグラフ・モチーフ、そして速度ルールのトリガー率が含まれる。あわせて、実データのノイズフロアに校正した劣化比(degradation-ratio)指標を導入する。
- 著者らは、行(row)に独立な合成生成器ではマルチアカウントのグラフ・モチーフ(P3)を再現できないこと、また同生成器はエンティティ内のイベント間時間における自己相関が非正になることを証明する。これにより、モデルのアーキテクチャやデータ量にかかわらず、コアとなるバースト/不正の指紋は到達不能であることが示される。
- IEEE-CIS Fraud DetectionおよびAmazon Fraud Datasetでのベンチマークでは、CTGAN、TVAE、GaussianCopula、TabularARGNといった複数の代表的生成器が大きく失敗する。劣化比は、IEEE-CISで最大約39倍、Amazonでは行に独立な手法で81.6〜99.7倍となる。一方でTabularARGNは17.2倍と相対的に良いものの、それでもなお実質的に劣化する。
- オープンソースの評価フレームワークを公開し、P1〜P4の行動型パターン枠組みが、医療やネットワークセキュリティなど、エンティティ単位の時系列タブラー・データの他領域にも一般化できると主張する。

