敵対的分布アラインメントによる生成モデルで、シミュレーションから実験へのギャップを埋める

arXiv cs.LG / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、システム状態を部分的にしか明らかにしない実験観測と、シミュレーションデータで学習した生成モデルを結び付ける分布アラインメントの枠組みを提案することで、シミュレーションから実験へのギャップに取り組む。
「Adversarial Distribution Alignment（ADA）」を導入し、当初はシミュレーション上のボルツマン分布で学習した原子位置の生成モデルを、実験観測分布へと整合させる。
著者らは、複数の観測量が存在しそれらが相関している場合でも、ADAが目標の観測量分布を復元できることを証明する。
このアプローチはドメイン非依存であるとされているが、合成データ、分子データ、実験的なタンパク質データといった物理科学の文脈で実証され、多様な観測量にわたってアラインメントが達成されることを示す。
再現性と、シミュレーションから実験へのモデリングにおける導入の可能性を支えるために、公開コードを提供する。

要旨: 科学技術における根本的な課題は、シミュレーションと実験のギャップです。私たちはしばしば物理法則に関する事前知識を持っていますが、これらの物理法則は複雑なシステムに対しては正確に解くことがあまりにも難しいことがあります。そのようなシステムは一般にシミュレータでモデル化され、計算上の近似が課されます。一方で、実験計測は現実世界をより忠実に表しますが、実験データは通常、システムの全体的な基礎状態を部分的にしか反映しない観測から構成されています。私たちは、完全に観測された（ただし不完全な）シミュレーションデータ上で生成モデルを事前学習し、その後、実験データの部分的な（しかし実在の）観測と整合させることで、このシミュレーションから実験へのギャップを埋めるデータ駆動型の分布整合フレームワークを提案します。提案手法はドメイン非依存ですが、Adversarial Distribution Alignment（ADA）を導入することで、物理科学に基づいてアプローチを位置づけます。この手法は、当初シミュレートされたボルツマン分布で学習した原子位置の生成モデルを、実験観測の分布と整合させます。私たちは、複数の、そして潜在的に相関を持つ複数の観測量がある場合でも、私たちの手法が目標とする観測量分布を復元できることを証明します。また、合成データ、分子データ、ならびに実験のタンパク質データを用いて経験的にフレームワークを検証し、多様な観測量に対して生成モデルを整合させることができることを示します。コードは https://kaityrusnelson.com/ada/ で公開しています。