原子系表現学習のための自己条件付きデノイジング

arXiv cs.LG / 2026/3/19

📰 ニュースModels & Research

要点

  • 本論文は自己条件付きデノイジング(SCD)を提案します。これは自己エンベディングを用いて、原子系データ全体に渡る条件付きデノイジングを可能にするバックボーンに依存しない事前学習の目的関数です。
  • SCD は多様なドメインに適用され、小分子、タンパク質、周期材料、非平衡幾何構造を含む領域を横断します。これにより、基底状態の幾何構造や単一ドメインに限定されていた SSL の制約に対処します。
  • バックボーンアーキテクチャと事前学習データを制御することで、SCD は従来の SSL 手法を著しく上回り、下流ベンチマークにおいて教師ありの力-エネルギー事前学習と同等以上の性能を達成します。
  • SCD で事前学習した小型で高速なグラフニューラルネットワークは、ラベル付きまたはラベルなしデータセットを大幅に拡大して学習したより大きなモデルと比べて、競争力のある、あるいはそれを上回る性能を発揮します。
  • SCD のコードは https://github.com/TyJPerez/SelfConditionedDenoisingAtoms で入手可能です。

要約:NLPとコンピュータビジョンにおける大規模事前学習の成功は、物理科学のための類似の基盤モデルを開発する取り組みを促進しています。しかし、原子系データを用いた事前学習戦略はまだ十分には探求されていません。これまで、DFT 力-エネルギーラベルを用いた大規模な監督付き事前学習は下流の性質予測に最も大きな性能向上をもたらしており、基底状態の幾何学に限定され、または原子データの単一ドメインに限定される自己教師あり学習(SSL)法を上回っています。私たちはこれらの欠点を Self-Conditioned Denoising(SCD)と呼ばれるバックボーンに依存しない再構成目的で対処します。SCD は自己埋め込みを利用して条件付きデノイジングを原子データの任意のドメインに適用可能とし、小分子、タンパク質、周期材料、そして「非平衡」幾何学を含みます。バックボーンのアーキテクチャと事前学習データセットを統制した場合、SCD は下流のベンチマークで従来の SSL 法を著しく上回り、監視付き力-エネルギー事前学習の性能と同等かそれを上回ることに相当します。また、SCD によって事前学習された小型で高速な GNN が、かなり大規模なラベル付きまたはラベルなしデータセットで事前学習されたより大きなモデルと同等、あるいはそれを凌ぐ性能を、複数のドメインのタスクに跨って達成できることを示します。コードは以下で入手可能です: https://github.com/TyJPerez/SelfConditionedDenoisingAtoms