みなさんこんにちは、
私は非銀行系の金融機関の内部監査部門で働くジュニアのデータサイエンティストです。モデルリスク監査の役割で採用されました。これまでの経験は、主にロジスティック(デフォルト確率)モデルの開発と評価に限られていました。現在の会社では、モデルバリデーションチーム(MRM)を監査しています。なので基本的に、チームに技術的な背景を持つ人が誰もおらず、疑問をぶつけられる相手もいないため、ある問題に行き詰まっています。私は完全に一人で抱えています。
私の会社では、ファーム/自動二輪ローンなどの顧客をスクリーニングするために複雑なアンサンブルモデルを使用しています。
仕組みとしては、新しい申請が来ると、bureau thick/bureau thin/NTC などのようなセグメンテーション基準がトリガーされます。その後、フィーダーモデルが実行されます。例:申請が bureau thick セグメントに該当した場合、フィーダーモデル A、B、C が実行されます(A、B、C はそれぞれ xgboost モデルです)。最終的に、それぞれのフィーダーモデルからデフォルト確率が算出されます。算出されたデフォルト確率はスコアに変換され、そのスコアを sigmod 関数に通して logits(ロジット)を得ます。A、B、C の logits が得られると、それらを入力として、固定係数のロジスティックモデルで最終的なデフォルト確率を予測します。
さて、監査中に、フィーダーモデルで使用されているいくつかの変数が統計的に有意でなかったり、極端に弱い予測変数だったりすることが分かりました(Information Value が < 2%)。また他にもいくつかの問題がありました。この点をモデルバリデーションチームに指摘したところ、「モデルの最終出力は集約(aggregation)であり、弱い個々の構成要素があっても、弱いモデルについて懸念すべき原因はない」と言われました。
この概念は理解していますが、これに異議を唱えるために私ができることは何もないのでしょうか。というのも、こうした傾向は複数のアンサンブルモデル(個人ローンモデル、消費者向け耐久財モデルなど)でも同様だからです。調べてみたのですが、見つけられませんでしたし、助けを求められる上長もいません。
何か反論として提示できるカウンターはありますか?
また、xgb はフィーダーモデルの特徴量選択にも使われていますが、場合によっては VIF をチェックしてすらいません。さらに lime や shap のプロットもしていません。そこで、モデルバリデーションチームが用いているアンサンブルモデルの合理性(ロジック)に対する反論を用意したいのです。
どうもありがとうございます、みなさん。
[link] [comments]
