GeoChallenge: 図を用いた幾何推論の多解答型多肢選択ベンチマーク

arXiv cs.AI / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

GeoChallenge は、整列したテキストと図を用いた多段階推論を要する、9万件の自動生成された多肢選択型幾何証明問題のデータセットを導入します。
LLMにおける幾何推論を制御可能に評価するため、細粒度の複雑さ評価と形式的な言語注釈を提供します。
高度なLLMを横断する実験は、モデルのパフォーマンスと人間の能力の間にギャップがあることを示しており、GPT-5-nano は厳密一致で 75.89、対して人間は 94.74 を達成しました。
著者らは三つの失敗パターンを特定しています：MCQ の制約下での厳密一致の難しさ、視覚的要素への依存の弱さ、収束せずに過剰な推論を行うこと。
全体として、GeoChallenge は AI の幾何推論をより信頼性の高い評価につなげ、現在のモデルの限界を照らし出すことを目的としています。

要旨: 大規模言語モデル（LLMs）の象徴的推論を評価するには、テキストと図の両方に根拠を置く多段階の証明を必要とする幾何学のベンチマークが求められる。しかし、既存のベンチマークは規模が制限されていることが多く、視覚的に根拠づけられた選択式問題を提供することはまれで、複雑な推論の信頼性ある評価を制限している。私たちは GeoChallenge を導入する。これは 90K の自動生成された多肢選択の幾何学的証明問題のデータセットで、各問題は整列したテキスト記述と図の間の多段階の推論を要求する。 GeoChallenge は、厳密な複雑さの評価と形式的な言語注釈を提供し、制御された評価を可能にする。
複数の高度な LLM に対する実験は、モデルと人間の間に明確な性能ギャップを示している（最も高い性能を示したモデルである GPT-5-nano は、正確一致 75.89 に対し、人間は 94.74）。さらに分析は、LLM の三つの共通の失敗パターンをも明らかにする：（1）選択式設定での正確一致の失敗；（2）視覚的依存の弱さ；（3）収束せずに過度に推論すること。

返却形式: {"translated": "翻訳されたHTML"}

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

note

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

日経XTECH

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

Dev.to

GANを用いたデータ拡張

Dev.to

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

Dev.to

GeoChallenge: 図を用いた幾何推論の多解答型多肢選択ベンチマーク

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

GANを用いたデータ拡張

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

GANを用いたデータ拡張

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ