科学的実験画像を読み解く:知覚・理解・推論のためのSPURベンチマーク

arXiv cs.CV / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、科学的実験画像の知覚・理解・推論を評価する新しいベンチマーク「SPUR」を提案しており、1,084枚の専門家が厳選した画像から4,264のQAペアを構築しています。
  • SPURは、6種類の微細なパネル種別に対して、数値・形態・情報の局在という3つの観点でマルチモーダルLLMのパネルレベルの精緻な知覚を評価します。
  • 1サンプルあたり平均14.3枚のパネルを含む複雑な画像を用い、パネル間の関係理解を測定します。
  • さらに、5つの実験パラダイムにわたる定性的・定量的な推論をテストし、モデルが人間の専門家のようにエビデンスから結論を導けるかを検証します。
  • 20のMLLMと4つのマルチモーダルChain-of-Thought手法を用いた評価では、専門家レベルに対して大きな不足が見られ、AI for Science(AI4S)研究における重要なボトルネックが浮き彫りになります。

Abstract

本稿では、科学的な実験画像の知覚・理解・推論のための包括的ベンチマークであるSPURを紹介します。これは、専門家がキュレーションした1,084枚の画像から導出された4,264組の質問応答(QA)ペアで構成されます。SPURには3つの主要な革新があります。(1)パネル単位の細粒度知覚:6種類の細粒度パネルタイプに対し、数値的・形態的・情報の局在という3つの次元で、多モーダル大規模言語モデル(MLLM)の視覚的知覚を評価します。(2)パネル間の関係理解:1サンプルあたり平均14.3枚のパネルを含む複雑な画像を用いて、MLLMがパネル間の複雑な関係を読み解く能力を評価します。(3)専門家レベルの推論:5つの実験パラダイムにわたって定性的・定量的な推論を評価し、モデルが人間の専門家と同様に証拠から結論を推論できるかどうかを判定します。20のMLLMと4つのマルチモーダル Chain-of-Thought(MCoT)手法による包括的評価の結果、現行モデルは科学的画像解釈における専門家レベルの要件を大きく下回っており、AI for Science(AI4S)研究における重要なボトルネックが浮き彫りになりました。