要旨: 大規模言語モデルによって駆動されるAIエージェントは、高い推論能力と問題解決能力を示し、数式の導出やコード生成といった科学研究のタスクを支援できる。 しかし、これらのエージェントが実際の科学論文から信頼性のある形でエンドツーエンドの再現を実行できるのかどうかは、未解決の問いである。 本稿では、物理の11のサブ分野にまたがる30の専門家が厳選したタスクからなるベンチマークであるPRBenchを導入する。 各タスクでは、エージェントが出版された論文の手法を理解し、対応するアルゴリズムをゼロから実装し、定量的な結果を元の出版物のものと一致させることが求められる。 エージェントにはタスクの指示と論文の内容のみが与えられ、隔離された実行環境(サンドボックス)で動作する。 すべてのタスクは、中国・北京大学 物理学部における20を超える研究グループのドメイン専門家によって提供されており、いずれも実在の出版論文に基づき、検証済みのグラウンドトゥルース結果と詳細な採点ルーブリックによるエンドツーエンドの再現を通じて妥当性が確認されている。 エージェント化された評価パイプラインを用いて、PRBench上で一連のコーディング・エージェントを評価し、科学的推論と実行の主要な次元における能力を分析する。 最も高い性能を示したエージェントは、GPT-5.3-Codex によって駆動される OpenAI Codex であり、全体の平均スコアは34%を達成している。 すべてのエージェントはエンドツーエンドのコールバック成功率がゼロであり、とりわけデータの正確性とコードの正しさで極めて低い性能を示す。 さらに、数式の実装に関する誤り、数値シミュレーションのデバッグができないこと、出力データの捏造といった、体系的な失敗モードを特定する。 総じて、PRBenchは自律的な科学研究に向けた進展を評価するための厳密なベンチマークを提供する。
PRBench: 物理研究におけるエンドツーエンドの論文再現
arXiv cs.CL / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- PRBenchは、11のサブ分野にまたがる30の専門家が厳選した物理論文再現タスクからなるベンチマークとして紹介されており、エージェントはアルゴリズムをゼロから実装し、定量的な結果を再現することが求められます。
- 各タスクではエージェントに与えられるのは論文の内容と指示のみであり、検証済みの正解結果に一致させながら、サンドボックス化された環境で実行し、詳細な採点ルーブリックに基づいて評価されます。
- コーディングエージェントを、エージェント化された評価パイプラインにより評価したところ、最上位システム(GPT-5.3-Codexを用いたOpenAI Codex)の平均総合スコアは34%にとどまり、エンドツーエンドの再現に対する信頼性が限定的であることが示されました。
- テストしたすべてのエージェントは、エンドツーエンドのコールバック成功率が0であり、とりわけデータの正確性とコードの正しさの面で著しく性能が低いことが確認されました。
- 本研究では、誤った数式からコードへの実装、数値シミュレーションのデバッグができないこと、さらには出力データの捏造といった、反復的な失敗モードが特定されています。



