The Infinite-Dimensional Nature of Spectroscopy and Why Models Succeed, Fail, and Mislead

arXiv stat.ML / 4/7/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • 機械学習による分光スペクトル分類が高精度になる一方で、化学的に意味のある特徴が本当に使われているかは明確でないというギャップに対し、高次元性が共通原因になり得ることを理論的に示す研究である。
  • Feldman–Hajekの定理と濃度集中(concentration of measure)に基づき、ノイズ、正規化、装置由来の微小な分布差が高次元空間では完全に分離可能になり得ると説明している。
  • 合成および実データの蛍光スペクトル実験により、化学的な区別が実際には存在しない状況でもモデルがほぼ完全精度を達成し得ることを示し、失敗や誤誘導のメカニズムを具体化している。
  • さらに、特徴重要度マップがスペクトル上の無関係な領域を強調してしまう理由も、高次元性に起因する誤解を通じて整理している。
  • 理論・実験の両面を踏まえ、分光領域でMLモデルを構築し解釈する際の実務的な推奨事項を提示している。

Abstract

Machine learning (ML) models have achieved strikingly high accuracies in spectroscopic classification tasks, often without a clear proof that those models used chemically meaningful features. Existing studies have linked these results to data preprocessing choices, noise sensitivity, and model complexity, but no unifying explanation is available so far. In this work, we show that these phenomena arise naturally from the intrinsic high dimensionality of spectral data. Using a theoretical analysis grounded in the Feldman-Hajek theorem and the concentration of measure, we show that even infinitesimal distributional differences, caused by noise, normalisation, or instrumental artefacts, may become perfectly separable in high-dimensional spaces. Through a series of specific experiments on synthetic and real fluorescence spectra, we illustrate how models can achieve near-perfect accuracy even when chemical distinctions are absent, and why feature-importance maps may highlight spectrally irrelevant regions. We provide a rigorous theoretical framework, confirm the effect experimentally, and conclude with practical recommendations for building and interpreting ML models in spectroscopy.