無監督強化学習はいつ、なぜ数学的推論で成功するのか? 多様体包絡視点

arXiv cs.LG / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、内発的報酬を用いた無監督RLが、コストの高いグラウンドトゥルースのアノテーションを回避することにより、LLMs(大規模言語モデル)の数学的推論能力を拡張できると主張する。
  • それは、不安定性と報酬ハックを緩和するため、簡潔で確実な生成を明示的に促進する内発的報酬を設計・評価している。
  • それは、基礎的な論理的事前知識の範囲にわたって基盤モデルをスクリーニングし、モデルの基礎的な論理的事前知識が成功・失敗にどのように影響するかを明らかにする。
  • 多様体に基づく幾何学的診断レンズを導入し、なぜ一部の設定が安定化する一方で他が崩壊するのか、そして無監督アプローチが失敗しやすいときがあるのかを説明する。

概要: 成果ベースの強化学習(RL)は、Large Language Models(LLMs)の数学的推論能力を著しく向上させる一方で、計算コストの高い正解データ注釈への依存が深刻なスケーラビリティのボトルネックを課している。内発的報酬に導かれた教師なし RL はスケーラブルな代替手段を提供するが、訓練ダイナミクスは不透明で、方策崩壊や報酬ハッキングといった壊滅的な不安定さに悩まされる。本論文では、明示的に簡潔かつ確実な生成を強制する内発的報酬の一連を設計・評価する。次に、このアプローチの境界を探るため、基礎モデルを内在的推論能力のスペクトルにわたって評価し、モデルの基盤となる論理的前提が成功か失敗かをどのように決定づけるかを明らかにする。最後に、なぜ特定の構成が安定化し、他方が崩壊するのかを解明するため、新たな幾何学的診断レンズを導入し、成功例が多様体に包まれていることを示す。結局、簡潔で確実な応答を強制することが数学的推論を確実に高めることを単に示すだけでなく、この教師なしアプローチがいつ崩れるかを明らかにし、なぜかを幾何学的に診断する。

返却形式: {"translated": "翻訳されたHTML"}