概要: 成果ベースの強化学習(RL)は、Large Language Models(LLMs)の数学的推論能力を著しく向上させる一方で、計算コストの高い正解データ注釈への依存が深刻なスケーラビリティのボトルネックを課している。内発的報酬に導かれた教師なし RL はスケーラブルな代替手段を提供するが、訓練ダイナミクスは不透明で、方策崩壊や報酬ハッキングといった壊滅的な不安定さに悩まされる。本論文では、明示的に簡潔かつ確実な生成を強制する内発的報酬の一連を設計・評価する。次に、このアプローチの境界を探るため、基礎モデルを内在的推論能力のスペクトルにわたって評価し、モデルの基盤となる論理的前提が成功か失敗かをどのように決定づけるかを明らかにする。最後に、なぜ特定の構成が安定化し、他方が崩壊するのかを解明するため、新たな幾何学的診断レンズを導入し、成功例が多様体に包まれていることを示す。結局、簡潔で確実な応答を強制することが数学的推論を確実に高めることを単に示すだけでなく、この教師なしアプローチがいつ崩れるかを明らかにし、なぜかを幾何学的に診断する。
返却形式: {"translated": "翻訳されたHTML"}




