ShapShift:サブグループ条件付きShapley値によってモデル予測のシフトを説明する

arXiv stat.ML / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、入力分布の変化がモデルの平均予測をどのようにシフトさせるかを説明するための、Shapley値に基づく手法「ShapShift」を提案する。
  • 予測シフトは、決定木構造によって定義される解釈可能なデータのサブグループにおける条件付き確率の変化に起因するとし、まず、分割ノードでの厳密な説明を行う単一の決定木に対して示す。
  • この手法を木のアンサンブルに拡張し、最も説明力の高い木を選択して、残りの残差的効果をモデル化する。
  • モデルに依存しない変種では、新たな目的関数で学習した代理(サロゲート)木を用いることで、ニューラルネットワークのような非木モデルにも適用可能にする。
  • 厳密な計算はコストが高くなり得るが、著者らは近似手法を述べており、この手法が、変化する環境におけるモデル監視に有用な、単純で忠実度の高い、ほぼ完全な説明をもたらすと報告している。

要旨: 入力分布の変化は、機械学習モデルの平均予測にシフトを引き起こし得ます。このような予測シフトは、下流のビジネス成果(例: 銀行のローン承認率)に影響を及ぼす可能性があるため、その原因を理解することは重要になり得ます。私たちは \\ours{} を提案します。これは、データの解釈可能な部分集団の条件付き確率の変化に、予測シフトを帰属させるためのシャプレイ値(Shapley value)手法であり、これらの部分集団は決定木の構造によって定義されます。まず、この手法を単一の決定木に適用し、分岐ノードにおける条件付き確率の変化に基づく正確な説明を示します。次に、最も説明力のある木を選択し、残差効果を考慮することで、これをツリーアンサンブルへ拡張します。最後に、新しい目的関数で育成したサロゲート木(代替木)を用いる、モデル非依存の変種を提案し、ニューラルネットワークのようなモデルにも適用できるようにします。厳密な計算は負荷が高くなり得るものの、近似技術により実用的に適用できます。私たちは \\ours{} が、モデルクラスをまたいで予測シフトに対して単純で、忠実で、かつほぼ完全な説明を提供し、動的な環境におけるモデル監視を支援することを示します。