広告

判事エージェントが、AI生成の科学シミュレーションにおける信頼性のギャップを埋める

arXiv cs.LG / 2026/3/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、LLMが生成した科学シミュレーションコードにおける高いサイレント故障率に対し、「判事エージェント」を導入することで、適切性(well-posedness)、収束(convergence)、誤差認証(error certification)といった古典的検証を自動化し、この問題に取り組む。
  • 12の科学領域にまたがる134のテストケースで、サイレント故障率は42%から1.5%へ低下し、残余誤差は、認証が難しくなりがちな分岐点(bifurcation points)周辺に集中する。
  • 72件のブラインド課題を12名の独立した科学者が提出した前向きベンチマークでは、自動化された誤差境界により成功率89%(95%信頼区間: [80%, 95%])を記録し、「判事」を用いない場合の53%と比較して大きく改善する。
  • 臨床CT実験(唯一のパワーを持つ研究、n=200)では、パイプラインが専門家品質の性能の99%に到達し、実世界のシミュレーション業務に対する強い信頼性が示唆される。
  • 著者らは、「simulability class S」フレームワークによって認証可能性(certifiability)の限界を形式化し、機械可読な構造化仕様形式であるspec.mdを提案している。さらに、コード、データ、完全なベンチマーク一式を公開アーカイブしている。

Abstract

大規模言語モデルは科学シミュレーション用のコードを生成できますが、生成されたコードは大半の教科書的でない問題に対して、黙って失敗します。私たちは、古典的な数学的検証――適切性(well-posedness)、収束性、そして誤差の認定(error certification)――がJudge Agentによって完全に自動化できることを示します。これにより、134件のテストケースにまたがる12の科学領域で、黙秘的な失敗率を42%から1.5%へと低減します。主要な結果は前向きベンチマークから得られました。12人の独立した科学者が提出した72件のブラインド課題により、Judgeによる自動的な誤差境界を伴って89%の成功率(95% CI: [80%, 95%])が得られる一方、Judgeなしでは53%でした。臨床CT(唯一のパワード実験、n = 200)では、このパイプラインは専門家の品質の99%に到達します。残る1.5%は、認定可能性が破綻する分岐点に集中します。私たちはこの境界を、シミュラビリティ(simulability)クラスSとして形式化し、spec.mdという、あらゆる科学計算問題を機械可読かつソルバー非依存にするための構造化仕様形式を導入します。コード、データ、およびすべての72件のベンチマーク課題は公開アーカイブされています。

広告