要旨: 私たちは、旅行プラットフォームのグラフにおける不正リング検出を対象に、グラフニューラルネットワーク(GNN)を評価するための、設定可能なベンチマーク TravelFraudBench(TFG)を提案します。既存のベンチマーク--YelpChi, Amazon-Fraud, Elliptic, PaySim--は、単一のノード型、またはドメイン汎用的なパターンを扱うものであり、構造的に異なる不正リングのトポロジーにまたがって評価する仕組みがありません。TFG は、旅行固有の 3 種類のリング型--チケッティング不正(共有デバイス/IP クラスタを持つスター・トポロジー)、ゴーストホテルのスキーム(査読者×ホテルの二部クリーク)、アカウント乗っ取りリング(ロイヤリティ移転チェーン)--を、9 種類のノード型と 12 種類のエッジ型を持つヘテロジニアス・グラフ上でシミュレートします。リングサイズ、リング数、不正率、スケール(500〜200,000 ノード)、構成はすべて完全に設定可能です。私たちは、各リングがいずれか一方のパーティションに完全に含まれるリングベースの分割で 6 つの手法--MLP、GraphSAGE、RGCN-proj、HAN、RGCN、PC-GNN--を評価し、推論的なラベルリークを排除します。GraphSAGE は AUC=0.992、RGCN-proj は AUC=0.987 を達成し、MLP のベースライン(AUC=0.938)をそれぞれ 5.5、5.0 pp 上回ります。これにより、グラフ構造が大きな判別力を付与することが確認されます。HAN(AUC=0.935)は否定的な結果であり、MLP ベースラインと一致します。不正リング回復タスク(>=80% のリングメンバーを同時にフラグ付け)では、GraphSAGE はすべてのリング型に対して 100% の回復を達成します。一方 MLP は 17〜88% しか回復できません。エッジ型のアブレーションでは、デバイスと IP の共起が主要なシグナルであることが示されます。uses_device を除去すると AUC が 5.2 pp 低下します。TFG は、オープンソースの Python パッケージ(MIT ライセンス)として公開されており、PyG、DGL、NetworkX のエクスポータと、事前生成済みデータセットを https://huggingface.co/datasets/bsajja7/travel-fraud-graphs で提供します。Responsible AI 分野を含む Croissant メタデータも提供されます。
TRAVELFRAUDBENCH:旅行ネットワークにおけるGNN不正フロード・リング検出のための構成可能な評価フレームワーク
arXiv cs.LG / 2026/4/24
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 本論文では、旅行プラットフォームのネットワークグラフに対する不正フロード・リング検出を目的に、グラフニューラルネットワーク(GNN)を評価するための構成可能なベンチマーク「TravelFraudBench(TFG)」を提案する。
- TFGは、チケッティング詐欺(共有デバイス/IPクラスターを伴うスター型)、ゴーストホテル詐欺(レビュアーとホテルの二部クリーク)、アカウント乗っ取りリング(ロイヤルティ移転チェーン)という3種類の旅行向け不正リング・トポロジを、9種類のノード型と12種類のエッジ型からなるヘテロジニアス・グラフ上でシミュレートする。
- リングのサイズ/数、詐欺率、スケール(500〜200,000ノード)を完全に設定でき、各リングを丸ごと1つのパーティションに保持するリングベース分割により、推論時のラベル漏洩(transductive label leakage)を防ぐ。
- 6手法を評価した結果、GraphSAGEが最良性能(AUC=0.992)を達成し、リング回復でも全リング型で完全回復(100%)を示しており、MLPベースライン(AUC=0.938)を大きく上回るなど、グラフ構造が強い識別性を持つことを示唆する。
- 著者らはTFGをオープンソースのPythonパッケージ(MITライセンス)として公開し、PyG/DGL/NetworkX向けのエクスポータと、Responsible AIの項目を含むCroissantメタデータ付きの事前生成データセットをHugging Faceで提供している。



