要旨: 大規模言語モデル(LLMs)の象徴的推論を評価するには、テキストと図の両方に根拠を置く多段階の証明を必要とする幾何学のベンチマークが求められる。 しかし、既存のベンチマークは規模が制限されていることが多く、視覚的に根拠づけられた選択式問題を提供することはまれで、複雑な推論の信頼性ある評価を制限している。 私たちは GeoChallenge を導入する。これは 90K の自動生成された多肢選択の幾何学的証明問題のデータセットで、各問題は整列したテキスト記述と図の間の多段階の推論を要求する。 GeoChallenge は、厳密な複雑さの評価と形式的な言語注釈を提供し、制御された評価を可能にする。
複数の高度な LLM に対する実験は、モデルと人間の間に明確な性能ギャップを示している(最も高い性能を示したモデルである GPT-5-nano は、正確一致 75.89 に対し、人間は 94.74)。さらに分析は、LLM の三つの共通の失敗パターンをも明らかにする:(1)選択式設定での正確一致の失敗;(2)視覚的依存の弱さ;(3)収束せずに過度に推論すること。
返却形式: {"translated": "翻訳されたHTML"}
