要旨: 科学的モデリングは、機械論的理論の解釈可能性と、機械学習の予測能力との間のトレードオフに直面している。既存のハイブリッド手法は、機能的制約としてドメイン知識を機械学習手法に組み込むことで前進してきたが、正確な数学的仕様への依存によって制限されることがある。基礎となる方程式が部分的に不明であったり、誤って特定されていたりする場合、硬直した制約を課すことはバイアスを導入し、モデルがデータから学習する能力を損なう可能性がある。私たちは、ニューラルネットワークの学習データとして機械論的シミュレーションを用いることで科学理論を取り込む枠組み、Simulation-Grounded Neural Networks(SGNNs)を提案する。複数のモデル構造にまたがり、現実的な観測ノイズを含む多様な合成コーパスで事前学習することで、SGNNsは、システムの基盤となるダイナミクスを構造的事前知識として内部化する。
私たちは、疫学、生態学、社会科学、化学を含む複数の分野にわたってSGNNsを評価した。予測タスクにおいて、SGNNsは標準的なデータ駆動のベースラインおよび物理制約つきのハイブリッドモデルの両方を上回った。COVID-19の死亡率予測において、平均的なCDCモデルの予測スキルをほぼ3倍にし、高次元の生態学的システムを正確に予測した。SGNNsはモデルの誤仕様に対する頑健性を示し、不正確な仮定で生成されたデータで学習していても良好に機能した。さらに、私たちの枠組みは、バック-to-シミュレーション帰属(back-to-simulation attribution)も導入する。これは、シミュレーション・コーパス内で最も類似した対応物を特定することで、現実世界のダイナミクスを説明する、機械論的解釈可能性のための方法である。これらの手法を単一の枠組みに統合することで、多様な機械論的シミュレーションが頑健な科学的推論のための効果的な学習データとして機能し得ることを示す。
監督としてのシミュレーション:科学的発見のためのメカニスティックな事前学習
arXiv stat.ML / 2026/4/15
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、メカニスティックなシミュレーションを学習データとして用い、科学理論とニューラルネット学習を組み合わせる枠組みであるSimulation-Grounded Neural Networks(SGNNs)を提案する。
- 物理制約付きのハイブリッド手法のように、厳密な数学的仕様を必要とせず、基礎となる方程式が部分的に未知であったり不適切に与えられている場合でも、シミュレーションを構造的事前分布(structural priors)として扱うことでバイアスを回避する、という主張を行う。
- 疫学、生態学、社会科学、化学にまたがる実験により、SGNNsは予測タスクにおいて、標準的なデータ駆動型ベースラインおよび物理制約付きハイブリッドモデルよりも優れることを示す。
- 本手法は、平均的なCDCのCOVID-19死亡モデルに比べて予測スキルをほぼ3倍に高め、高次元の生態学的予測でも良好に機能する一方で、学習中の誤ったモデル仮定に対しても頑健である。
- SGNNsは「シミュレーションへの逆帰属(back-to-simulation attribution)」を追加し、合成コーパス内で観測されたダイナミクスに最も近いシミュレーション対応を対応付けることで、メカニスティックな解釈可能性を可能にする。



