COMPOSITE-Stem
arXiv cs.AI / 4/14/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 物理・生物・化学・数学の70タスクからなる新しい科学向けベンチマーク「COMPOSITE-STEM」を、博士レベル研究者が専門家執筆で構築したと発表している。
- 厳密一致の採点に加え、条件ベースのルーブリックと「LLM-as-a-jury」による採点プロトコルを組み合わせ、従来より柔軟に“科学的に意味のある出力”を評価できるようにしている。
- Harborのエージェント評価フレームワーク上で改変したマルチモーダルTerminus-2エージェントを用いて4つのフロンティアモデルを評価し、最上位モデルは21%を達成したと報告している。
- すべてのタスクをオープンソース化し、再現性と研究促進(科学発見の加速に向けた追加検証)を目的とした寄与許可の枠組みを示している。
💡 Insights using this article
This article is featured in our daily AI news digest — key takeaways and action items at a glance.
Related Articles

Black Hat Asia
AI Business

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to

Don't forget, there is more than forgetting: new metrics for Continual Learning
Dev.to

Microsoft MAI-Image-2-Efficient Review 2026: The AI Image Model Built for Production Scale
Dev.to
Bit of a strange question?
Reddit r/artificial