要旨: 正確に数学的対象を導出する能力は、数学、物理学、化学を含む下流のSTEMアプリケーションにおける中核的要件であり、推論は形式的に構造化された表現となって結実しなければならない。しかし、現在のLM(言語モデル)による数学的・科学的推論の評価は、自動評価の便宜性のため、数値や選択肢のような単純化された回答形式に大きく依存している。本研究では、数学的対象の推論を改善するための三つの貢献を提示する。(i) 数学的対象を導出するための訓練データとベンチマークを構築・公開する、Principiaシリーズ;(ii) 強力なLLMジャッジと検証者を用いた訓練レシピを提供し、オンポリシー判定訓練が性能を向上させることを示す;(iii) オンポリシー訓練を用いてアグリゲーションによるテスト時の計算量をスケールさせることも可能であることを示す。我々は、Qwen3-235B や o3 のような強力な言語モデルは Principia で苦戦することを示す一方で、我々の訓練レシピは異なるLLMバックボーンに対して顕著な改善をもたらし、既存の数値回答タスクおよびMCQAタスクの結果も同時に改善することができ、推論能力の形式横断的一般化を実証している。
数学的オブジェクトに関する推論: オンポリシー報酬モデリングとテスト時の集約
arXiv cs.AI / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 著者らは、数学、物理学、化学などの STEM 分野の推論を進めるための数学的オブジェクトを導出する訓練データとベンチマークのコレクションとして Principia スイートを公開します。
- 彼らは強力な LLM ジャッジと検証者を備えたトレーニングレシピを提供し、オンポリシー・ジャッジ訓練がモデルの性能を向上させることを示しています。
- オンポリシー訓練を用いて、集約を介してテスト時の計算を拡張できることを示しています。
- 実験は、Qwen3-235B および o3 のような強力な LLM が Principia で苦戦する一方で、彼らの訓練レシピがさまざまなバックボーンにおいて顕著な改善をもたらすことを示しています。
- 結果は、形式を超えた一般化を示し、Principia ベンチマークだけでなく、既存の数値計算タスクや MCQA タスクの性能を向上させることを示しています。