ReactBench：化学反応図におけるMLLMの位相的推論を測るベンチマーク

arXiv cs.AI / 2026/4/20

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、化学反応図を用いてマルチモーダルLLMの「構造（位相）推論」を検証するための新しいベンチマークReactBenchを提案しています。
分岐経路、合流、環状の依存関係といった複雑なグラフ構造に直面した際の弱点を狙い、エンドポイント数え上げのような基本課題でも推論が崩れる点を扱っています。
ベンチマークには4つの階層的タスク次元にまたがる1,618件の専門家注釈付きQAペアが含まれており、局所認識から全体的な構造推論まで段階的に評価できます。
17のMLLMでの実験では、アンカー型タスクからホリスティックな構造推論タスクへの移行で30%以上の性能低下が見られ、ボトルネックが知覚ではなく推論にあることが示されています。
アブレーション（要因除去）により、制約が本質的に構造理解にあることが裏付けられ、視覚的・位相的推論を改善するための方向性も示唆されます。

note

note

note

note

note