Abstract
天然のデンズ盆地における地下水は、重金属による汚染がますます深刻化しているが、従来の手法では、汚染指標の統計的な複雑性や空間的不均一性を捉えきれない。主要な課題は、通常歪んでいて相関した汚染物質の影響を受ける重金属汚染指数(HPI)をモデル化することである。変換を行わない場合、予測に偏りが生じる。この研究では、応答変換と入れ子の交差検証付きアンサンブル機械学習を統合した予測フレームワークを構築した。HPIに対して3種類の変換(生値、対数、ガウス・コピュラ)を適用し、6つの学習器にわたって評価した:サポートベクター回帰(SVM)、k近傍法(k-NN)、CART、Elastic Net、カーネルリッジ回帰、そしてスタックしたLassoアンサンブルである。生値スケールのモデルは、見かけ上非常に高い適合を示した(Elastic NetおよびスタックアンサンブルでR^2 \approx 1.0)。これは過度な楽観を示唆している。対数変換は分散を安定化させた(SVM:R^2 = 0.93、RMSE = 0.18;k-NN:R^2 = 0.92、RMSE = 0.20)。ガウス・コピュラは最も信頼性の高い結果を与えた。スタックアンサンブルのR^2 = 0.96(RMSE = 0.19)であり、他の学習器も高い精度を維持した。コピュラに基づくモデルは残差を改善し、空間的に妥当な地図を生成した。DBSCANクラスタリングにより、FeとMnが主要なHPIへの寄与を示すことが明らかになり、地域の地下水地球化学と整合的であった。制約として、ランダム(空間的ではない)な交差検証への依存と、盆地固有の範囲に留まる点が挙げられる。今後の研究では、空間検証や他の地質環境の検討を行うべきである。総じて、分布を考慮したアンサンブルとクラスタリング診断は、堅牢で解釈可能な地下水汚染の評価を提供する。