地下水の重金属汚染を予測するためのスマート・アンサンブル学習フレームワーク

arXiv cs.AI / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • 本研究は、分布が歪み相関する汚染物質の影響も受ける Heavy Metal Pollution Index(HPI)を適切に扱うことで、地下水中の重金属汚染予測のバイアス問題に取り組む。
  • 反応変換(raw、log、Gaussian copula)と、ネスト化された交差検証によるアンサンブル機械学習を統合した予測フレームワークを提案する。
  • HPIのrawスケールで学習したモデルは、Elastic NetとスタックアンサンブルでR^2が約1.0と見かけ上非常に高い適合を示した一方、過度な楽観性が示唆された。
  • Gaussian copulaを用いたスタックアンサンブルでは、R^2=0.96(RMSE=0.19)を達成し、残差が改善するとともに汚染分布マップも空間的に妥当な形になった。
  • DBSCANによるクラスタリング診断で、HPIへの主要な寄与としてFeとMnが特定され、今後は空間的検証や他の地質環境での検討が必要とされている。

Abstract

天然のデンズ盆地における地下水は、重金属による汚染がますます深刻化しているが、従来の手法では、汚染指標の統計的な複雑性や空間的不均一性を捉えきれない。主要な課題は、通常歪んでいて相関した汚染物質の影響を受ける重金属汚染指数(HPI)をモデル化することである。変換を行わない場合、予測に偏りが生じる。この研究では、応答変換と入れ子の交差検証付きアンサンブル機械学習を統合した予測フレームワークを構築した。HPIに対して3種類の変換(生値、対数、ガウス・コピュラ)を適用し、6つの学習器にわたって評価した:サポートベクター回帰(SVM)、k近傍法(k-NN)、CART、Elastic Net、カーネルリッジ回帰、そしてスタックしたLassoアンサンブルである。生値スケールのモデルは、見かけ上非常に高い適合を示した(Elastic NetおよびスタックアンサンブルでR^2 \approx 1.0)。これは過度な楽観を示唆している。対数変換は分散を安定化させた(SVM:R^2 = 0.93、RMSE = 0.18k-NN:R^2 = 0.92、RMSE = 0.20)。ガウス・コピュラは最も信頼性の高い結果を与えた。スタックアンサンブルのR^2 = 0.96(RMSE = 0.19)であり、他の学習器も高い精度を維持した。コピュラに基づくモデルは残差を改善し、空間的に妥当な地図を生成した。DBSCANクラスタリングにより、FeとMnが主要なHPIへの寄与を示すことが明らかになり、地域の地下水地球化学と整合的であった。制約として、ランダム(空間的ではない)な交差検証への依存と、盆地固有の範囲に留まる点が挙げられる。今後の研究では、空間検証や他の地質環境の検討を行うべきである。総じて、分布を考慮したアンサンブルとクラスタリング診断は、堅牢で解釈可能な地下水汚染の評価を提供する。