概要: 科学的発見を加速するには、コストのかかる物理的検証にリソースを投じる前に、どの実験が最良の結果をもたらすかを特定することが必要です。既存のベンチマークは、LLMを科学的知識や推論に関して評価していますが、実験結果を予測する能力――AIが人間の能力を大きく上回り得る領域――については、ほとんど十分に研究されていません。私たちは、物理・生物・化学の33の専門サブ分野における最近の実証研究から導出された405のタスクで構成されるベンチマーク「SciPredict」を導入します。SciPredictは2つの重要な問いに取り組みます:(a) LLMは科学実験の結果を十分な精度で予測できるのか?(b) そのような予測は、科学研究のプロセスにおいて確実に利用できるのか? 評価の結果、両方の側面において根本的な制約が明らかになりました。モデルの精度は14〜26%であり、人間の専門家のパフォーマンスは≈20%です。一部の最先端モデルは人間の性能を上回るものの、モデルの精度は、それによって信頼できる実験ガイダンスを可能にするほどには依然として大幅に低いままです。また、限られた性能の範囲内でも、モデルは信頼できる予測と信頼できない予測を区別できず、確信度にかかわらず、あるいは物理的な実験なしに予測可能だと判断しているかどうかにかかわらず、わずか≈20%の精度しか達成できません。これに対し、人間の専門家は強いキャリブレーションを示します。つまり、実験を行わずに結果がより予測可能だと判断するほど、精度は≈5%から≈80%へと上昇します。SciPredictは、実験科学における超人的性能には、より良い予測だけでなく、予測の信頼性に対するより良い認識が必要であることを、厳密な枠組みによって示します。再現性のために、私たちのデータとコードはすべて https://github.com/scaleapi/scipredict にて提供します
SciPredict:LLMは自然科学における科学実験の結果を予測できるのか?
arXiv cs.AI / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- SciPredictを提案し、物理・生物・化学の33分野から集めた405タスクで、LLMが実験結果を事前にどれだけ正確に予測できるかを検証しています。
- 評価の結果、モデル精度は14〜26%にとどまり、信頼できる実験ガイダンスに必要な水準には達していないと報告されています。
- 予測の「信頼性の見分け」にも課題があり、モデルは自信度や「実験なしで予測可能」と判断しても、精度が一貫して約20%程度に留まる傾向が示されています。
- 一方で人間の専門家はキャリブレーションが良く、「予測可能」と判断した場合に精度が約5%から約80%へ大きく上がることが示され、信頼性認識の重要性が強調されています。
- データとコードは公開され、実験プロセスに予測を組み込むには「当てる」だけでなく「予測の信頼性を認識する」ことが不可欠だという枠組みを提示しています。

