きめ細かな視覚的痕跡を明らかにする：マルチモーダルSTEM課題におけるマルチモーダル・インタリーブ推論チェーンの評価

arXiv cs.CV / 2026/4/22

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文は、最終解答の精度だけでなく、テキストと画像の間の推論（クロスモーダル推論）を評価するための新しい大学院レベルのSTEMベンチマーク「StepSTEM」を提案します。
StepSTEMは、テキスト入力と視覚入力の厳密な補完関係を強制する厳格なキュレーション手順によって構築されており、単一モダリティの「抜け道」を抑制します。
さらに、予測された推論ステップを複数の参照解と整合させるステップレベルの評価フレームワークを提案し、テキストのみのチェーン・オブ・ソートと画像-テキストを交互に用いる推論の両方に対応します。
幅広い既存のMLLMを対象とした実験では、モデルが依然としてテキスト推論に大きく依存していることが示され、Gemini 3.1 Pro と Claude Opus 4.6 でさえ 38.29% の精度にとどまったため、本質的なマルチモーダルSTEM推論には大きな改善余地があることが示唆されます。
著者らは、紐づけられたGitHubリポジトリでベンチマークのコードを公開し、マルチモーダル推論の品質をきめ細かく評価できることを目指しています。

概要: マルチモーダル大規模言語モデル（MLLMs）は有望な推論能力を示しているものの、専門領域における性能評価は依然として難しい課題です。STEM推論は、強く検証可能なフィードバックを提供するため、特に貴重な試験台ですが、既存のベンチマークでは、モダリティの冗長性によって単一モダリティの近道が許されることが多く、さらに最終回答の正確さに主に焦点が当てられているため、推論プロセス自体が見落とされています。この課題に対処するため、我々はStepSTEMを提案します。StepSTEMは、数学、物理、化学、生物、工学にまたがる283問から成る大学院レベルのベンチマークであり、MLLMにおける異モーダル推論をきめ細かく評価することを目的としています。StepSTEMは、テキスト入力と視覚入力の間の厳格な補完性を強制する、厳密なキュレーションのパイプラインによって構築されています。さらに、テキストのみのチェーン・オブ・ソート（chain-of-thought）と、画像とテキストが交互に現れる異モーダル推論の双方に対して、一般的なステップ単位の評価フレームワークも提案します。このフレームワークでは、動的計画法を用いて、予測された推論ステップを複数の参照解と整合させます。幅広い種類のモデルに対する実験の結果、現在のMLLMは依然としてテキストによる推論に大きく依存しており、Gemini 3.1 Pro でも Claude Opus 4.6 でも達成率はわずか38.29%にとどまることが示されました。これらの結果は、本物の異モーダルSTEM推論に向けた大きな余地を浮き彫りにし、StepSTEMをマルチモーダル推論をきめ細かく評価するためのベンチマークとして位置付けます。ソースコードは https://github.com/lll-hhh/STEPSTEM で利用可能です。