SHAPCA: 分光データにおける機械学習モデルの一貫性があり解釈可能な説明

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • SHAPCA は、次元削減のための主成分分析(PCA)と SHAP(Shapley Additive exPlanations)を組み合わせ、分光データの元の入力空間で説明を提供する新しい説明可能な機械学習パイプラインです。
  • この手法は、分光データの高次元性と強い共線性に取り組み、複数のトレーニング実行にわたるモデル説明の安定性と一貫性を向上させます。
  • グローバルな説明とローカルな説明の両方を提供し、全体的なモデル挙動を左右するスペクトル帯域を強調するとともに、個々の予測に影響を与えるインスタンス固有の特徴の両方を強調します。
  • このフレームワークは、説明を背後にある生物学的成分へ結びつけることにより解釈性を高め、実行間での一貫性がより高くなることを数値的に裏付けます。

要約: 近年、機械学習モデルは化学および生物医学的分析の分光データセットへとますます適用されている。臨床および安全性が極めて重要な設定において、専門家や研究者はモデル予測の背後にある推論を理解し、信頼できる必要がある。しかし、分光データの本質的に高次元で強い多重共線性は、モデルの説明可能性に根本的な課題をもたらす。これらの特性は、モデルのトレーニングを複雑化するだけでなく、説明の安定性と一貫性を損ない、反復的な学習実行における特徴量の重要度の変動を招く。入力次元を削減するために特徴抽出技術が用いられてきたが、これらの新しい特徴は予測と元の信号との結びつきを妨げる。本研究は SHAPCA を提案する。主成分分析(次元削减のため)と Shapely Additive exPlanations(事後説明のため)を組み合わせ、元の入力空間で説明を提供する explainable machine learning パイプラインであり、実務者が解釈し生物学的成分へ結びつけることができる。提案されたフレームワークは、グローバルおよびローカルの視点の両方から分析を可能にし、全体的なモデル挙動を推進するスペクトル帯域と、個々の予測に影響を与えるインスタンス固有の特徴を明らかにします。数値解析は、結果の解釈可能性と、異なる実行間での一貫性の向上を示した。