皆さん、こんにちは。
私は現在、詐欺検知のためのXAIに焦点を当てた学士論文のプロジェクトに取り組んでいます。データセットについていくつか懸念があり、コミュニティの皆さんの意見を求めています。
Kaggleのクレジットカード詐欺データセットを使用しており、特徴量28個(V1-V28)はPCA変換の結果です。
教師なしアプローチとしてスタックドオートエンコーダを訓練しており、再構成誤差が大きい場合に詐欺を検出します。
SHAPを用いて、なぜオートエンコーダが特定の取引をフラグ付けしたのかを説明しています。具体的には、モデルの平均二乗誤差(再構成誤差)を説明するためのカスタム関数を作成しました。
特徴量がPCA変換されているため、例えば「モデルはこの取引を場所のせいでフラグした」とは言えません。代わりに「V14とV17の特徴パターンが原因でモデルがこれをフラグした」としか言えません。
この「抽象的な解釈可能性」が正当な貢献なのか、それともPCA変換がXAIの側面を無用にしてしまうのか、皆さんのご意見をぜひお聞かせください。
[リンク] [コメント]