概要: 強化学習(RL)は、複雑な推論タスクにおいて大規模言語モデルの精度を高めるのに効果的である。既存のRLポリシー最適化フレームワークは、最終回答の正しさをフィードバック信号として用いることに依存しており、推論プロセス内部の論理構造を捉えることはめったにない。その結果、モデルは流暢で意味的に関連のある応答を生成する一方で、論理的に一貫していない、構造的に破綻している、あるいは冗長であるといった問題が生じうる。そこで本研究では、最適化目的に推論の安定性を明示的に組み込む、安定性強化型強化学習フレームワークであるStaRPOを提案する。StaRPOは安定性を、計算可能で軽量な2つの指標に分解する。局所的なステップ間の一貫性を評価する自己相関関数(Autocorrelation Function: ACF)と、推論軌跡の全体的な目標指向性を評価するパス効率(Path Efficiency: PE)である。これらの安定性報酬は、タスク報酬と組み合わせることで、補完的でかつプロセスを意識したフィードバックを提供する。我々は、ACFおよびPE報酬の有効性を示すために、2つの基盤モデルにおいて、それらが論理エラーと相関することを明らかにする。4つの推論ベンチマークでの実験により、StaRPOは一貫してベースラインを上回り、最終回答の精度と論理的安定性の両方を向上させうることを示す。
StaRPO: 安定性を補強した強化学習方策最適化
arXiv cs.AI / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- StaRPOは、最終回答の正しさだけでなく推論プロセスの安定性も最適化することで、大規模言語モデルの推論性能を向上させるための強化学習フレームワークとして提案される。
- この手法では、局所的なステップ間のコヒーレンスに対する自己相関関数(Autocorrelation Function: ACF)と、推論の軌跡に沿った大域的な目的志向性に対するパス効率(Path Efficiency: PE)の、軽量かつ計算可能な2つの安定性指標を導入する。
- StaRPOは、これらの安定性報酬を標準的なタスク報酬と組み合わせることで、方策最適化中にプロセスを意識した補完的なフィードバックを提供する。
- 実験では、ACFおよびPEが2つのバックボーンモデルにおける論理エラーと相関すること、またStaRPOが4つの推論ベンチマークにおいて性能を向上させ、最終回答の正確性と論理的な安定性の双方を高めることが報告されている。

