判事エージェントが、AI生成の科学シミュレーションにおける信頼性のギャップを埋める
arXiv cs.LG / 2026/3/30
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究は、LLMが生成した科学シミュレーションコードにおける高いサイレント故障率に対し、「判事エージェント」を導入することで、適切性(well-posedness)、収束(convergence)、誤差認証(error certification)といった古典的検証を自動化し、この問題に取り組む。
- 12の科学領域にまたがる134のテストケースで、サイレント故障率は42%から1.5%へ低下し、残余誤差は、認証が難しくなりがちな分岐点(bifurcation points)周辺に集中する。
- 72件のブラインド課題を12名の独立した科学者が提出した前向きベンチマークでは、自動化された誤差境界により成功率89%(95%信頼区間: [80%, 95%])を記録し、「判事」を用いない場合の53%と比較して大きく改善する。
- 臨床CT実験(唯一のパワーを持つ研究、n=200)では、パイプラインが専門家品質の性能の99%に到達し、実世界のシミュレーション業務に対する強い信頼性が示唆される。
- 著者らは、「simulability class S」フレームワークによって認証可能性(certifiability)の限界を形式化し、機械可読な構造化仕様形式であるspec.mdを提案している。さらに、コード、データ、完全なベンチマーク一式を公開アーカイブしている。




