概要: 幾何学的問題解決(GPS)は、大規模言語モデルにおける数学的推論力の強化の中核にあり続けている。なぜなら、図による理解、記号的操作、そして論理的推論を組み合わせる必要があるからだ。既存の文献では、研究者は主に、図の記述をテキストのリテラルと同期させ、問題を解くことに焦点を当ててきた。この流れの中で、彼らはニューラル、シンボリック、あるいはニューラル・シンボリック(ニューロシンボリック)のアプローチを採用してきた。しかしそれらは、図による理解と記号的操作の最初の2つの要件しか満たさず、論理的推論は十分に発展していないままである。論理的推論はしばしば、1本のチェーン・オブ・ソート(CoT)に限定される。これまでのモデルにおけるこの弱点に対処するため、本論文では、Pythonコードの実行による数値検証を拡張した複数の並列推論ロールアウトを生成し、信頼度のシグナルとしてトークン単位のエントロピーでそれらを順位付けし、多段階の投票および自己検証パイプラインを通じて回答を集約するMARS-GPSを提案する。実験結果は、8つの並列ロールアウトを用いたMARS-GPSがGeometry3Kで88.8%を達成し、従来の最先端手法に対してほぼ+11%の改善であることを示している。さらに、ロールアウト数が1から16へ増加するにつれて精度は一貫してスケールしており(アブレーション部分集合で+6.0%)、その傾向が確認された。我々はコードとデータを匿名リポジトリで公開している: https://anonymous.4open.science/r/MARS-GPS-DE55。
記号的解法を超えて:大規模言語モデルにおける幾何推論のためのマルチ・チェーン・オブ・ソート投票
arXiv cs.AI / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMにおける従来の幾何問題解決手法が「論理推論」要素を十分に扱えていないと主張しがちであり、多くの場合、検証済みの複数の推論経路ではなく、単一のチェーン・オブ・ソートに依存しているとする。
- Pythonコード実行による数値検証と、トークン単位のエントロピーを信頼度の指標として候補解をランキングすることで、多並列の推論ロールアウトを生成する手法「MARS-GPS」を提案する。
- その後、MARS-GPSは多段階の投票および自己検証パイプラインを通じて結果を集約し、幾何推論の最終回答の信頼性を高める。
- 実験では、Geometry3Kにおいて8並列ロールアウトで88.8%の精度を報告しており、従来の最先端手法からほぼ+11%の向上を示す。さらに、ロールアウト数を1から16へスケールすると、アブレーション・サブセットで+6.0%の追加改善が得られる。
- 著者らは、追試およびさらなる発展を支援するために、匿名のリポジトリにコードとデータを公開する。

