PRL-Bench:最先端物理学研究におけるLLMの能力を評価する包括的ベンチマーク
arXiv cs.AI / 2026/4/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- PRL-Benchは、ドメイン知識の理解だけでなく、探索性・長期的なワークフロー・手続き的な複雑さを重視して、LLMのエンドツーエンドの物理研究遂行能力を評価するためのベンチマークである。
- これは、2025年8月以降のPhysical Review Lettersの最新号から選定された専門家監修の100本の論文をもとに構築され、天体物理、凝縮系物理、高エネルギー物理、量子情報、統計物理の5つの主要な理論・計算集約的サブ分野をカバーする。
- 各課題は、実際の研究に近い状況を模倣するよう設計されており、探索を促す定式化の段階や、実験に依存しない形での客観的に検証可能なエンドツーエンドのワークフローを含む。
- 最先端モデルに対する評価では、最良の総合スコアが50未満にとどまり、現行LLMの能力と実際の科学研究の要求の間に大きなギャップがあることが示された。
- 著者らはPRL-Benchを、より自律的な科学的発見を目指す次世代のAIシステムを評価・導くための信頼できるテストベッドとして位置づけている。



