要旨: 大規模言語モデル(LLM)は数学的推論についてますます評価されるようになっているが、同値な問題表現に対する頑健性は依然として十分に理解されていない。幾何学では、同一の問題がユークリッド表現、座標表現、ベクトル表現として記述され得るが、既存のベンチマークは固定フォーマットに対する正確さを報告しているに過ぎず、表現不変性を暗黙に仮定し、表現の変更だけによって引き起こされる失敗を見えなくしている。私たちは、問題レベルで並列な複数の定式化にまたがって、正確さ・不変性・整合性を測定する、表現を考慮した評価フレームワークGeoRepEvalを提案する。厳密な答えの一致、ブートストラップ信頼区間、対のMcNemar検定、表現フリップ分析、表面の複雑さに対する回帰による制御を組み合わせることで実現する。私たちは、Invariance@3メトリクスが正確さを頑健な成分と脆弱な成分に分解し、その値は最も弱い表現によって上界付けられることを証明する。選定した高校数学の幾何問題158問(474インスタンス)に対して11個のLLMを評価したところ、表現の選択のみから生じる最大14ポイントの精度差を観測した。ベクトル表現は一貫した失敗の起点として現れ、長さや記号的複雑さを制御した後でもInvariance@3が0.044と低い。変換してから解く(convert-then-solve)ためのプロンプト介入により、高容量モデルではベクトル精度が最大52ポイント改善されることが分かり、失敗は推論不能というより表現感度によることを示唆する。一方で低容量モデルでは改善が見られず、より深い制約があることが示される。これらの結果は、現在のモデルが抽象的な幾何学的推論というより、表現固有の経験則に依存していることを示唆する。すべてのデータセット、プロンプト、スクリプトは https://github.com/vedjaw/GeoRepEval で公開する。
幾何における大規模言語モデルの表現頑健性の測定
arXiv cs.CL / 2026/4/21
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMの数学・幾何ベンチマークが固定された問題形式でのみ評価しがちであるため、表現を変えたことによる失敗が見落とされやすく、推論能力を過大評価し得ると主張している。
- GeoRepEvalを提案し、幾何の同等な別表現(ユークリッド、座標、ベクトルなど)に対して、正答、表現不変性、一貫性を問題単位で検証する枠組みを統計手法と回帰制御付きで構築した。
- 11のLLMを158の厳選された高校数学の幾何問題(計474インスタンス)で評価した結果、表現を変えるだけで最大14ポイントの精度差が生じ得ることを示した。
- ベクトル表現が特に一貫してつまずきやすいことが分かり、記号の複雑さや長さを制御してもInvariance@3が0.044まで低下した。
- convert-then-solve(変換してから解く)というプロンプト介入は高能力モデルでベクトル精度を最大52ポイント改善し、失敗が「表現への感度」に起因する可能性を示唆したが、低能力モデルでは効果が小さかった。




