基盤モデル時代における分子物性予測のための深層学習に関する体系的な調査とベンチマーク

arXiv cs.LG / 2026/4/21

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、分子物性予測における深層学習手法を体系的に整理し、Quantum、Descriptor Machine Learning、Geometric Deep Learning、Foundation Modelsの4つのパラダイムを扱います。
  • 分子表現・モデル構造・関連する学際的アプリケーション要求を結び付ける統一的なタクソノミーを提示しています。
  • ベンチマークでは、一般的に使われるデータセットに加えて、産業の視点を反映したデータセットも分析し、量子・物理化学・生理・生物物理の各領域のターゲットを含めます。
  • 著者らは、ステレオケミストリーの不整合、アッセイ情報の多様性、ランダムまたは不適切に定義された分割に起因する再現性の制約といった主要な課題を明確にしています。
  • さらに、時間・スキャフォールドを考慮したベンチマーク設計への近代化や、物理を意識した学習、確実性(不確実性)で較正された基盤モデル、計算データと実験データを統合する現実的なマルチモーダル・ベンチマークという3つの将来方向性を提案します。

Abstract

分子特性予測は、量子化学、計算化学(ケモインフォマティクス)、深層学習を統合し、分子構造を物理化学的および生物学的な挙動に結び付けます。本サーベイでは、量子、記述子機械学習、幾何学的深層学習、基盤モデルを含む4つの補完的パラダイムをたどり、分子表現、モデルアーキテクチャ、学際的応用を結び付ける統一的な分類法を概説します。ベンチマーク分析では、広く用いられているデータセットと、産業的視点を反映したデータセットの双方からのエビデンスを統合し、量子、物理化学、生理学、生物物理の領域を含みます。本サーベイは、データキュレーション、分割戦略、評価プロトコルにおける現在の標準を検討し、不整合な立体化学、異質なアッセイソース、ランダムまたは十分に定義されていない分割における再現性の制約といった課題を浮き彫りにします。これらの観察結果は、透明性の高い、時間およびスキャフォールドを考慮したベンチマーク設計への近代化を促します。さらに、3つの今後の方向性を提案します:(i)量子の整合性を埋め込む物理を意識した学習、(ii)信頼できる推論のための不確実性キャリブレーションされた基盤モデル、(iii)計算データと実験データを統合する現実的なマルチモーダル・ベンチマークのエコシステム。リポジトリ: https://github.com/Zongru-Li/Survey-and-Benchmarks-of-DL-for-Molecular-Property-Prediction-in-the-Foundation-Model-Era。