取引レベルとアクターレベルのAMLキューは一致するのか：Elliptic++グラフにおける粒度の影響の実証評価

arXiv cs.AI / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、取引レベルとアクタ（アドレス）レベルの2種類の粒度でグラフ型AMLをスコアリングした場合、レビュー予算を固定すると調査キューの構成が同じになるのかを検証している。
取引スコアをアクターの行動単位へ対応付けるための4つの集約演算子を用いた投影フレームワークを提示し、yield@budget、burden decomposition、case fragmentationといった評価指標も導入している。
Elliptic++ Bitcoinデータセットを用い、因果的な時間プロトコルの下でレベルごとに独立したランダムフォレスト分類器を学習し、時間評価と静的なプーリング評価でレビューキューを比較している。
1%予算では時間評価の平均Jaccardが0.374である一方、静的プーリング評価は0.087まで低下し、特徴量を拡張したアドレスモデルではさらに0.051と一致度が下がることが示されている。
これらの結果から、同じデータでもスコアリング粒度が異なると調査対象となるアドレスが大きく変わるため、粒度はAML調査システムの設計上の重要な変数であると結論づけている。

要旨: ブロックチェーンネットワーク上のグラフベースのマネーロンダリング対策（AML）システムは、不審な活動を2つの粒度レベル――取引またはアクター（主体）アドレス――でスコアリングできるが、コンプライアンス上の措置はアクターごとに実施される。本論文は、固定された審査予算のもとで、スコアリングの粒度が調査キューの構成にどのように影響するかを測定するための評価手法を提案する。4つの集約演算子を通じて、取引レベルのスコアをアクターレベルのアクション単位へと写像する射影（プロジェクション）フレームワークにより評価を形式化し、さらに予算付きの調査指標――yield@budget、負担分解（burden decomposition）、およびケースの分断（case fragmentation）――を導入する。公開されているElliptic++のビットコインデータセット（203,769件の取引；822,942件のアドレス出現）を用い、因果的な時間プロトコルのもとで各レベルごとに独立なランダムフォレスト分類器を学習し、Jaccard一致度、負担分解、特徴量整合（feature-matching）のアブレーションによってレビューキューを比較する。1%の予算では、時間評価により平均Jaccardが0.374（SD 0.171）となり、静的なプール評価では0.087（95% CI [0.079, 0.094]）となる。すべての237の特徴量を受け取る強化されたアドレスモデルでは、重なり（overlap）がさらに低くなり（Jaccard=0.051）、100件のレビューあたりの違法件数は4.3%であるのに対し、取引をアクターへ射影したキューでは30.2%である。アドレスレベルの検出価値は時間的に集中しており、2つのタイムステップで100件のレビューあたり91%以上の違法件数が観測される一方、静的な負担はわずか3.4%に過ぎない。固定ハイブリッド方策は、最良の単一レベルのキューに対して5.05pp（CI [-10.2pp, -0.9pp]）劣る。これらの結果は、AML調査システムにおいてスコアリング粒度が重要な設計変数であることを示す――同じデータ、同じ予算、しかし異なるキュー、異なる調査対象アドレスが得られる。