数学的オブジェクトに関する推論: オンポリシー報酬モデリングとテスト時の集約

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、数学、物理学、化学などの STEM 分野の推論を進めるための数学的オブジェクトを導出する訓練データとベンチマークのコレクションとして Principia スイートを公開します。
彼らは強力な LLM ジャッジと検証者を備えたトレーニングレシピを提供し、オンポリシー・ジャッジ訓練がモデルの性能を向上させることを示しています。
オンポリシー訓練を用いて、集約を介してテスト時の計算を拡張できることを示しています。
実験は、Qwen3-235B および o3 のような強力な LLM が Principia で苦戦する一方で、彼らの訓練レシピがさまざまなバックボーンにおいて顕著な改善をもたらすことを示しています。
結果は、形式を超えた一般化を示し、Principia ベンチマークだけでなく、既存の数値計算タスクや MCQA タスクの性能を向上させることを示しています。

要旨: 正確に数学的対象を導出する能力は、数学、物理学、化学を含む下流のSTEMアプリケーションにおける中核的要件であり、推論は形式的に構造化された表現となって結実しなければならない。しかし、現在のLM（言語モデル）による数学的・科学的推論の評価は、自動評価の便宜性のため、数値や選択肢のような単純化された回答形式に大きく依存している。本研究では、数学的対象の推論を改善するための三つの貢献を提示する。(i) 数学的対象を導出するための訓練データとベンチマークを構築・公開する、Principiaシリーズ；(ii) 強力なLLMジャッジと検証者を用いた訓練レシピを提供し、オンポリシー判定訓練が性能を向上させることを示す；(iii) オンポリシー訓練を用いてアグリゲーションによるテスト時の計算量をスケールさせることも可能であることを示す。我々は、Qwen3-235B や o3 のような強力な言語モデルは Principia で苦戦することを示す一方で、我々の訓練レシピは異なるLLMバックボーンに対して顕著な改善をもたらし、既存の数値回答タスクおよびMCQAタスクの結果も同時に改善することができ、推論能力の形式横断的一般化を実証している。

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

数学的オブジェクトに関する推論: オンポリシー報酬モデリングとテスト時の集約

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも