PubSwap: フェデレーテッドRLVRにおける公開データを用いたオフポリシー協調

arXiv cs.LG / 2026/4/15

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、集中型の設定を超えて推論を拡張することを目的とした、フェデレーテッドRLVR（検証可能な報酬からの強化学習）フレームワークであるPubSwapを提案する。
LoRAベースのローカル適応を用いることで通信コストとクライアントのドリフトを抑えつつ、少量の共有された公開データセットによって定期的にオフポリシー協調を行う。
公開データを用いるステップでは、PubSwapは共有された応答レベルのシグナルを使って、ローカルで誤っている応答をグローバルに正しい応答へ選択的に置き換え、クライアントをグローバル目的により良く整合させる。
著者らは、数学および医療分野の推論ベンチマークにおいて、標準的なベースラインに対して一貫した改善を報告しており、提案手法の有効性が広く示唆される。
全体として、本研究は、低ランク更新と軽量な公開データによるアンカーリングを組み合わせ、かつプライベートデータを公開せずに実用的な「レシピ」を提示している。

要旨: 推論の事後学習を、検証可能な報酬からの強化学習（RLVR）で行う手法は通常、集中型の設定で研究されますが、多くの現実的な応用では、組織間に分散された分散プライベートデータが関わります。連合学習は自然な解決策ですが、この枠組みでRLVRをスケールするのは困難です。全モデルの同期は高コストであり、さらに多くのローカルステップを実行すると、異種データの下でクライアントのドリフトが深刻化します。そこで本研究では、LoRAベースのローカル適応と、公的データに基づくオフポリシー・ステップを組み合わせた連合RLVRフレームワークを提案し、通信効率とクライアント間の協調の両方を改善します。具体的には、小規模な共有の公開データセットを用いて、応答レベルの学習信号を組織間で定期的に交換・再利用し、プライベートデータを公開することなく、よりグローバルに整合した目的に向けた軽量なアンカーを提供します。本手法では、公的データに基づくステップの間に、ローカルで誤っている応答をグローバルに正しい応答で選択的に置き換えるため、ローカルポリシーにより近い状態を保ちつつ、それでもクライアント間の協調の恩恵を受けられます。数学的および医学的な推論ベンチマークとモデルの両方において、本手法は標準的なベースラインを一貫して改善します。本結果は、連合推論の事後学習に対するシンプルで効果的なレシピを示しています。すなわち、低ランクの通信と、限られた公開データによる協調を組み合わせる、というものです。