コーディング・エージェントは計算材料科学の知見を再現できるのか?

arXiv cs.CL / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMベースのコーディング・エージェントが計算材料科学における科学的主張を再現できるかを、単なるコーディング能力だけではなく手順理解や結果解釈まで含めて評価するためのベンチマークAutoMatを提案しています。
  • AutoMatは、情報が不十分なまま書かれた手順を復元する力、専門的なツールチェーンを扱う力、そして得られた証拠が主張を支持するかを判断する力という3つの連動した能力を評価します。
  • 実際の材料科学論文から収集した主張を用い、複数のコーディング・エージェント設定を土台となる複数の基盤モデルで検証した結果、再現の成功率は総じて低いことが分かりました。
  • 最も良い構成でも成功率は54.1%にとどまり、特に論文本文だけからワークフローを再構成する必要がある場合や、必要な方法からの逸脱・手順の不完全さ・実行の脆さが原因で失敗が多いと分析されています。
  • 著者らは、AutoMatをAI-for-Scienceにおける再現性ベンチマークであると同時に、科学的ワークフローにおけるエージェント型システムの現在の弱点を診断するツールとして位置づけています。

要旨: 大規模言語モデルは、自律的なコーディング・エージェントとしてますます広く導入されるようになっており、ソフトウェア工学ベンチマークで驚くほど高い性能を示してきました。しかし、そのような成功が計算科学のワークフローへも移転されるかどうかは不明です。計算科学のワークフローでは、強力なコーディング能力だけでなく、複雑で領域固有の手順を切り抜ける能力や、科学的主張の文脈の中で結果を解釈する能力が必要だからです。この問いに答えるために、私たちは計算材料科学における「主張の再現」を行うLLMベース・エージェントの能力を評価するベンチマーク AutoMat を提示します。AutoMat は互いに関連する3つの課題を提示します。すなわち、十分に特定されていない計算手順を復元すること、専門的なツールチェーンをナビゲートすること、そして、得られた証拠が主張を支持するかどうかを判断することです。私たちは、領域の専門家と密に協力して、実際の材料科学論文から一連の主張を厳選し、コーディング・エージェントが(そうした主張を支持する、または覆すために)必要となるエンドツーエンドのワークフローを復元して実行できるかどうかを検証します。そのうえで、いくつかの基盤モデルにわたって、複数の代表的なコーディング・エージェント設定を評価します。結果として、現在のLLMベースのエージェントは AutoMat で全体として低い成功率しか得られず、最も良い設定でも成功率は54.1%にとどまりました。誤り分析により、ワークフローを論文本文の記述だけから再構築しなければならない場合にエージェントの性能が最も悪くなること、そして主な失敗要因が不完全な手順、方法論上の逸脱、ならびに実行の脆弱性であることが明らかになりました。これらの知見を総合すると、AutoMat は計算科学の再現可能性のためのベンチマークであると同時に、AI-for-science の文脈におけるエージェント的システムの現在の限界を診断するためのツールとして位置づけられます。