デュアル・コンセンサス: 二段階投票機構による教師なしRLVRにおける偽の多数派からの脱出

arXiv cs.LG / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Dual Consensus Reinforcement Learning (DCRL) は、巨大言語モデルの教師なしRLVRにおける偽の多数派への収束を緩和するための自己教師付きトレーニング手法として提案される。
  • 本手法は、まずアンカーとして支配的な応答を生成し、次に探索者として一時的な忘却プロセスを介して多様な補助信号を生成する二段階の投票機構を導入します。
  • 最終的なトレーニング目標はアンカー信号と探索者信号の調和平均であり、このアプローチは外部モデルや教師信号なしで動作します。
  • 8つのベンチマークにおいて、DCRLは多数決を上回るPass@1を達成し、より安定した学習ダイナミクスを実現します。これは、ラベル付きデータなしでより強力な推論を可能にするスケーラブルな道を示唆します。

概要:
大規模言語モデル(LLMs)向けの現在のラベルフリー RLVR アプローチは、TTRL および Self-reward のような手法が、複雑な推論タスクにおける LLMs の性能を向上させる効果を示しています。
しかし、これらの手法は正確な擬似ラベル推定に過度に依存し、偽情報ながらも人気の高い回答へと収束してしまい、支配的なモードにはまり込み、さらなる改善を制限します。
これを踏まえ、私たちは二段階のコンセンサスメカニズムを通じてより信頼できる学習信号を生成する能力を備えた、新規の自己教師付きトレーニング手法である Dual Consensus Reinforcement Learning(DCRL)を提案します。
モデルは最初にアンカーとして支配的な応答を生成します。次に探索者として機能し、一時的なアンラーニング過程を介して多様な補助信号を生成します。
最終的なトレーニング目標は、これら二つの信号セットの調和平均から導かれます。
特筆すべきは、この過程が外部モデルや監督なしで完全に動作する点です。
8つのベンチマークと多様なドメインにわたり、DCRLは多数決を上回るPass@1を一貫して改善し、より安定したトレーニングダイナミクスを生み出します。
これらの結果は、DCRLがラベルなしでより強力な推論へと拡張可能な道を確立することを示しています。