LABBench2：生物研究を行うAIシステムのための改良ベンチマーク

arXiv cs.AI / 2026/4/14

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

LABBench2は、AIが生物研究で「意味のある仕事」を遂行できる実世界能力を測るために設計された、LAB-Benchの進化版ベンチマークである。
LABBench2は約1,900のタスクで構成され、ほとんどがLAB-Benchの継続でありつつ、より現実的な文脈で同種の能力を評価するように拡張されている。
最先端モデルを評価した結果、LAB-Bench/LABBench2で性能は大きく向上した一方、LABBench2は難易度を実質的に引き上げており、サブタスク間ではモデル別精度差が-26%〜-46%の範囲で縮まらないギャップを示した。
研究コミュニティの利用を促すため、タスクデータセット（Hugging Face）と公開評価ハーネス（GitHub）を提供している。

要旨: AIによる科学的発見の加速への期待は、ますます高まっています。科学研究における現在のAIの活用は、科学データに基づいて専用の基盤モデルを学習することから、エージェント型の自律的仮説生成システム、さらにはAI駆動の自律ラボにまで及びます。科学領域におけるAIシステムの進歩を測定する必要性は、それを加速するだけでなく、ますます現実世界でのより実質的な能力へと焦点を移すべきです。単なる暗記の知識や、推論を超えて、実際に意味のある作業を実行する能力を測定することです。先行研究では、これらの能力を測定するための初期の試みとして、言語エージェント・バイオロジーベンチマークLAB-Benchを導入しました。ここでは、役に立つ科学的タスクを実行するAIシステムの現実世界での能力を測定するための、そのベンチマークの発展版であるLABBench2を紹介します。LABBench2は、ほぼ1,900のタスクから構成されており、ほとんどの部分がLAB-Benchの継続です。同様の能力を測定しますが、より現実的な状況で行います。私たちは現在の最先端モデルの性能を評価し、LAB-BenchおよびLABBench2で測定される能力が大幅に改善している一方で、LABBench2は（サブタスク間でのモデル固有の精度差は-26%から-46%の範囲）難度の意味のある跳ね上がりを提供しており、性能改善の余地がなお残っていることを示します。LABBench2は、AIの科学研究能力における事実上のベンチマークとしてのLAB-Benchのレガシーを引き継ぎ、これらの中核的な研究機能のためのAIツールの開発を前進させ続けることに役立つことを願っています。コミュニティでの利用と開発を促進するために、タスクデータセットをhttps://huggingface.co/datasets/futurehouse/labbench2で提供し、公開の評価用ハーネスをhttps://github.com/EdisonScientific/labbench2で提供します。