SARL: 推論トポロジーに報酬を与えるラベルフリー強化学習

arXiv cs.AI / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

大規模な推論モデルに対する強化学習は、多くの場合、検証可能な報酬やラベル付き教師データの必要性によって制約され、その結果、正しさが曖昧なオープンエンド領域では性能が伸びにくい。
本論文は SARL（Structure Aware Reinforcement Learning）を提案する。これは、途中の思考ステップから応答ごとの Reasoning Map（推論マップ）を構築し、その「小さな世界」のトポロジーに報酬を与えることで、学習を最終解答から推論の経路へと移す、ラベルフリーの強化学習フレームワークである。
SARL は、局所的に整合的な推論トラジェクトリ（推論の軌跡）を生成しつつ、全体としても効率的にすることを目標とし、早期の攻略（搾取）を最適化するのではなく、汎化的な推論力を高める。
Qwen3-4B に対する実験では、SARL がグラウンドトゥルースに基づく RL や、既存のラベルフリー RL のベースラインを上回り、数学タスクとオープンエンドタスクの両方で大きな改善が見られた。
さらに、その結果は、ベースラインと比べて KL ダイバージェンスが低く、ポリシーエントロピーが高いことから、学習の安定性と探索・汎化の向上が示唆される。

Abstract

強化学習は、大規模推論モデルの改善において中心的になってきましたが、その成功は依然として検証可能な報酬、またはラベル付きの教師データに大きく依存しています。これは、正しさが曖昧で検証できない、オープンエンドな領域への適用を制限します。さらに、推論の軌跡はほとんど制約がなく、最終回答に向けた最適化が、一般化よりも早期の搾取を優先してしまう可能性があります。本研究では、モデルに「何を出力するか」（推論結果）ではなく「どのように考えるか」（推論の構造）を教えることで、一般的な推論能力を向上できるのかを問い、従来のRLVRをオープンエンドな設定へ拡張します。私たちは、複雑ネットワークや人間の脳の機能的な組織化に触発された、構造を意識した強化学習（SARL）を提案します。SARLは、ラベル不要の枠組みであり、中間の思考ステップから各応答ごとの推論マップを構築し、それを小さな世界のトポロジーとして報酬付けします。SARLは、局所的に整合的でありつつ、グローバルには効率的な推論軌跡を促し、監督（教師信号）を「到達先」から「道筋」へと移します。Qwen3-4Bに対する実験では、SARLが、正解（グラウンドトゥルース）に基づくRLおよび従来のラベル不要RLのベースラインを上回り、数学タスクでPPOにより平均獲得率9.1%、GRPOにより11.6%を達成し、オープンエンドなタスクではPPOで34.6%、GRPOで30.4%を達成しました。良好な性能に加えて、SARLはKLダイバージェンスが低く、ポリシーエントロピーが高いことも示しており、より安定で探索的な学習、ならびに一般化された推論能力につながることが示唆されます。

Black Hat Asia

AI Business

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

Dev.to

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

SARL: 推論トポロジーに報酬を与えるラベルフリー強化学習

要点

Abstract

関連記事

Black Hat Asia

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer