もしコンセンサスが嘘をつくとしたら? テスト時の選択的補完的強化学習

arXiv cs.LG / 2026/3/23

📰 ニュース

要点

  • SCRL(Selective-Complementary Reinforcement Learning)は、LLMs(大規模言語モデル)のテスト時の強化学習を強化し、コンセンサス信号からのラベルノイズ増幅を緩和するために、選択的陽性疑似ラベリングとエントロピーゲート陰性疑似ラベリングを導入します。

要約:テスト時強化学習(TTRL)は、ラベルなしのテストデータストリーム上で推論能力を高めるために、マジョリティ投票の合意から疑似報酬を導出することによって、Large Language Models(LLMs)を強化します。 しかし、既存のTTRL手法は、正の疑似ラベリング戦略のみに依存しています。 この種の依存は、回答分布が高度に分散している困難なシナリオ下で脆弱となり、弱いコンセンサスが監督信号として誤った軌道を意図せず強化してしまいます。 本論文では、SCRL(Selective-Complementary Reinforcement Learning、選択的補完的強化学習)を提案します。これはラベルノイズの増幅を効果的に緩和する頑健なテスト時強化学習フレームワークです。 SCRLは、信頼できない多数派をフィルタリングする厳格なコンセンサス基準を課す選択的正の疑似ラベリングを開発します。 補足として、SCRLはエントロピーゲート付き負の疑似ラベリングを導入します。これはTTRLにおける最初の負の監督機構であり、生成の不確実性に基づいて誤った軌道を信頼性高く剪定します。 複数の推論ベンチマークにおける広範な実験は、SCRLがベースラインに対して大幅な改善を達成することを示し、制約されたロールアウト予算の下で堅牢な一般化とトレーニングの安定性を維持します。 我々のコードは https://github.com/Jasper-Yan/SCRL で入手可能です。