要旨: AIエージェントは科学的発見を加速するための大きな期待を持っていますが、最前線の評価が欠けていることが導入の妨げとなり、実際の業務フローへの組み込みが難しくなっています。専門家が執筆したベンチマークはAIの推論を測定するのに有効であることが実証されていますが、この段階では多くのベンチマークが飽和し、制約された出力に対する性能しか測れていません。このギャップに対処するために、博士課程レベルの研究者によってキュレーションされた、物理・生物・化学・数学にまたがる70の専門家が執筆したタスクからなるベンチマークCOMPOSITE-STEMを提案します。我々のベンチマークは、一致率(exact-match)による採点と、基準に基づく採点ルーブリックに加えて、LLMを陪審(jury)とする採点プロトコルを組み合わせることで、科学的に意味のある出力に対するより柔軟な評価を可能にします。Harborというエージェント型評価フレームワーク内で、適応したマルチモーダルのTerminus-2エージェントを活用し、4つの最前線モデルを評価します。最上位のモデルは21%を達成し、COMPOSITE-STEMが現行のエージェント到達範囲を超えた能力を捉えていることを示しています。すべてのタスクは、再現性を支援し、これらの領域におけるAIによる科学進歩の加速に向けた追加研究を促進するために、貢献者の許可を得てオープンソース化されています。
COMPOSITE-Stem
arXiv cs.AI / 2026/4/14
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 物理・生物・化学・数学の70タスクからなる新しい科学向けベンチマーク「COMPOSITE-STEM」を、博士レベル研究者が専門家執筆で構築したと発表している。
- 厳密一致の採点に加え、条件ベースのルーブリックと「LLM-as-a-jury」による採点プロトコルを組み合わせ、従来より柔軟に“科学的に意味のある出力”を評価できるようにしている。
- Harborのエージェント評価フレームワーク上で改変したマルチモーダルTerminus-2エージェントを用いて4つのフロンティアモデルを評価し、最上位モデルは21%を達成したと報告している。
- すべてのタスクをオープンソース化し、再現性と研究促進(科学発見の加速に向けた追加検証)を目的とした寄与許可の枠組みを示している。




