PRL-Bench:最先端物理学研究におけるLLMの能力を評価する包括的ベンチマーク

arXiv cs.AI / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • PRL-Benchは、ドメイン知識の理解だけでなく、探索性・長期的なワークフロー・手続き的な複雑さを重視して、LLMのエンドツーエンドの物理研究遂行能力を評価するためのベンチマークである。
  • これは、2025年8月以降のPhysical Review Lettersの最新号から選定された専門家監修の100本の論文をもとに構築され、天体物理、凝縮系物理、高エネルギー物理、量子情報、統計物理の5つの主要な理論・計算集約的サブ分野をカバーする。
  • 各課題は、実際の研究に近い状況を模倣するよう設計されており、探索を促す定式化の段階や、実験に依存しない形での客観的に検証可能なエンドツーエンドのワークフローを含む。
  • 最先端モデルに対する評価では、最良の総合スコアが50未満にとどまり、現行LLMの能力と実際の科学研究の要求の間に大きなギャップがあることが示された。
  • 著者らはPRL-Benchを、より自律的な科学的発見を目指す次世代のAIシステムを評価・導くための信頼できるテストベッドとして位置づけている。

Abstract

エージェント型サイエンスのパラダイムでは、AIシステムに対して、確かな推論を行い、長期にわたる自律的な探索に取り組むことが求められます。しかし、現在の科学ベンチマークは、ドメイン知識の理解や複雑な推論にとどまっており、現実世界の研究における探索的性質や手続き的複雑性を評価できていません。本研究では、実験に依存しない形で、包括的なドメイン知識、複雑な推論、検証可能なエンドツーエンドのワークフローを備えた自然な試験場として、理論物理学および計算物理学における研究志向の評価を提示します。ここで、LLMによる物理研究(PRL-Bench: Physics Research by LLMs)を導入します。これは、エンドツーエンドの物理研究を実行する上でのLLMの能力限界を、体系的に地図化することを目的としたベンチマークです。PRL-Benchは、2025年8月以降のPhysical Review Lettersの最新号から厳選した100本の論文から構築され、分野の専門家によって検証されています。PRL-Benchは、現代物理学の5つの主要な、理論および計算集約型のサブ分野――天文学、凝縮系物理学、高エネルギー物理学、量子情報、統計物理学――をカバーします。ベンチマークの各タスクは、探索志向の定式化、長期にわたるワークフロー、客観的な検証可能性といった、真正の科学研究が持つ中核的な特性を再現するよう設計されており、それによって、実際の物理研究における本質的な推論過程と研究ワークフローを再構成します。最前線のモデルに対する評価では、性能は限定的なままであり、最良の総合スコアが50を下回ることが示されました。これは、現在のLLM能力と、実際の科学研究が要求する水準との間に、顕著なギャップが存在することを明らかにします。PRL-Benchは、AIシステムを自律的な科学的発見へと前進させる次世代のAI科学者へ到達するための、信頼できる試験場として機能します。