科学的実験画像を読み解く:知覚・理解・推論のためのSPURベンチマーク
arXiv cs.CV / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、科学的実験画像の知覚・理解・推論を評価する新しいベンチマーク「SPUR」を提案しており、1,084枚の専門家が厳選した画像から4,264のQAペアを構築しています。
- SPURは、6種類の微細なパネル種別に対して、数値・形態・情報の局在という3つの観点でマルチモーダルLLMのパネルレベルの精緻な知覚を評価します。
- 1サンプルあたり平均14.3枚のパネルを含む複雑な画像を用い、パネル間の関係理解を測定します。
- さらに、5つの実験パラダイムにわたる定性的・定量的な推論をテストし、モデルが人間の専門家のようにエビデンスから結論を導けるかを検証します。
- 20のMLLMと4つのマルチモーダルChain-of-Thought手法を用いた評価では、専門家レベルに対して大きな不足が見られ、AI for Science(AI4S)研究における重要なボトルネックが浮き彫りになります。




