SARL: 推論トポロジーに報酬を与えるラベルフリー強化学習
arXiv cs.AI / 2026/3/31
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 大規模な推論モデルに対する強化学習は、多くの場合、検証可能な報酬やラベル付き教師データの必要性によって制約され、その結果、正しさが曖昧なオープンエンド領域では性能が伸びにくい。
- 本論文は SARL(Structure Aware Reinforcement Learning)を提案する。これは、途中の思考ステップから応答ごとの Reasoning Map(推論マップ)を構築し、その「小さな世界」のトポロジーに報酬を与えることで、学習を最終解答から推論の経路へと移す、ラベルフリーの強化学習フレームワークである。
- SARL は、局所的に整合的な推論トラジェクトリ(推論の軌跡)を生成しつつ、全体としても効率的にすることを目標とし、早期の攻略(搾取)を最適化するのではなく、汎化的な推論力を高める。
- Qwen3-4B に対する実験では、SARL がグラウンドトゥルースに基づく RL や、既存のラベルフリー RL のベースラインを上回り、数学タスクとオープンエンドタスクの両方で大きな改善が見られた。
- さらに、その結果は、ベースラインと比べて KL ダイバージェンスが低く、ポリシーエントロピーが高いことから、学習の安定性と探索・汎化の向上が示唆される。



