判事エージェントが、AI生成の科学シミュレーションにおける信頼性のギャップを埋める

arXiv cs.LG / 2026/3/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、LLMが生成した科学シミュレーションコードにおける高いサイレント故障率に対し、「判事エージェント」を導入することで、適切性（well-posedness）、収束（convergence）、誤差認証（error certification）といった古典的検証を自動化し、この問題に取り組む。
12の科学領域にまたがる134のテストケースで、サイレント故障率は42%から1.5%へ低下し、残余誤差は、認証が難しくなりがちな分岐点（bifurcation points）周辺に集中する。
72件のブラインド課題を12名の独立した科学者が提出した前向きベンチマークでは、自動化された誤差境界により成功率89%（95%信頼区間: [80%, 95%]）を記録し、「判事」を用いない場合の53%と比較して大きく改善する。
臨床CT実験（唯一のパワーを持つ研究、n=200）では、パイプラインが専門家品質の性能の99%に到達し、実世界のシミュレーション業務に対する強い信頼性が示唆される。
著者らは、「simulability class S」フレームワークによって認証可能性（certifiability）の限界を形式化し、機械可読な構造化仕様形式であるspec.mdを提案している。さらに、コード、データ、完全なベンチマーク一式を公開アーカイブしている。

Abstract

大規模言語モデルは科学シミュレーション用のコードを生成できますが、生成されたコードは大半の教科書的でない問題に対して、黙って失敗します。私たちは、古典的な数学的検証――適切性（well-posedness）、収束性、そして誤差の認定（error certification）――がJudge Agentによって完全に自動化できることを示します。これにより、134件のテストケースにまたがる12の科学領域で、黙秘的な失敗率を42%から1.5%へと低減します。主要な結果は前向きベンチマークから得られました。12人の独立した科学者が提出した72件のブラインド課題により、Judgeによる自動的な誤差境界を伴って89%の成功率（95% CI: [80%, 95%]）が得られる一方、Judgeなしでは53%でした。臨床CT（唯一のパワード実験、n = 200）では、このパイプラインは専門家の品質の99%に到達します。残る1.5%は、認定可能性が破綻する分岐点に集中します。私たちはこの境界を、シミュラビリティ（simulability）クラスSとして形式化し、spec.mdという、あらゆる科学計算問題を機械可読かつソルバー非依存にするための構造化仕様形式を導入します。コード、データ、およびすべての72件のベンチマーク課題は公開アーカイブされています。