広告

SARL: 推論トポロジーに報酬を与えるラベルフリー強化学習

arXiv cs.AI / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 大規模な推論モデルに対する強化学習は、多くの場合、検証可能な報酬やラベル付き教師データの必要性によって制約され、その結果、正しさが曖昧なオープンエンド領域では性能が伸びにくい。
  • 本論文は SARL(Structure Aware Reinforcement Learning)を提案する。これは、途中の思考ステップから応答ごとの Reasoning Map(推論マップ)を構築し、その「小さな世界」のトポロジーに報酬を与えることで、学習を最終解答から推論の経路へと移す、ラベルフリーの強化学習フレームワークである。
  • SARL は、局所的に整合的な推論トラジェクトリ(推論の軌跡)を生成しつつ、全体としても効率的にすることを目標とし、早期の攻略(搾取)を最適化するのではなく、汎化的な推論力を高める。
  • Qwen3-4B に対する実験では、SARL がグラウンドトゥルースに基づく RL や、既存のラベルフリー RL のベースラインを上回り、数学タスクとオープンエンドタスクの両方で大きな改善が見られた。
  • さらに、その結果は、ベースラインと比べて KL ダイバージェンスが低く、ポリシーエントロピーが高いことから、学習の安定性と探索・汎化の向上が示唆される。

Abstract

強化学習は、大規模推論モデルの改善において中心的になってきましたが、その成功は依然として検証可能な報酬、またはラベル付きの教師データに大きく依存しています。これは、正しさが曖昧で検証できない、オープンエンドな領域への適用を制限します。さらに、推論の軌跡はほとんど制約がなく、最終回答に向けた最適化が、一般化よりも早期の搾取を優先してしまう可能性があります。本研究では、モデルに「何を出力するか」(推論結果)ではなく「どのように考えるか」(推論の構造)を教えることで、一般的な推論能力を向上できるのかを問い、従来のRLVRをオープンエンドな設定へ拡張します。私たちは、複雑ネットワークや人間の脳の機能的な組織化に触発された、構造を意識した強化学習(SARL)を提案します。SARLは、ラベル不要の枠組みであり、中間の思考ステップから各応答ごとの推論マップを構築し、それを小さな世界のトポロジーとして報酬付けします。SARLは、局所的に整合的でありつつ、グローバルには効率的な推論軌跡を促し、監督(教師信号)を「到達先」から「道筋」へと移します。Qwen3-4Bに対する実験では、SARLが、正解(グラウンドトゥルース)に基づくRLおよび従来のラベル不要RLのベースラインを上回り、数学タスクでPPOにより平均獲得率9.1%、GRPOにより11.6%を達成し、オープンエンドなタスクではPPOで34.6%、GRPOで30.4%を達成しました。良好な性能に加えて、SARLはKLダイバージェンスが低く、ポリシーエントロピーが高いことも示しており、より安定で探索的な学習、ならびに一般化された推論能力につながることが示唆されます。

広告