デュアル・コンセンサス: 二段階投票機構による教師なしRLVRにおける偽の多数派からの脱出

arXiv cs.LG / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

Dual Consensus Reinforcement Learning (DCRL) は、巨大言語モデルの教師なしRLVRにおける偽の多数派への収束を緩和するための自己教師付きトレーニング手法として提案される。
本手法は、まずアンカーとして支配的な応答を生成し、次に探索者として一時的な忘却プロセスを介して多様な補助信号を生成する二段階の投票機構を導入します。
最終的なトレーニング目標はアンカー信号と探索者信号の調和平均であり、このアプローチは外部モデルや教師信号なしで動作します。
8つのベンチマークにおいて、DCRLは多数決を上回るPass@1を達成し、より安定した学習ダイナミクスを実現します。これは、ラベル付きデータなしでより強力な推論を可能にするスケーラブルな道を示唆します。

概要：
大規模言語モデル（LLMs）向けの現在のラベルフリー RLVR アプローチは、TTRL および Self-reward のような手法が、複雑な推論タスクにおける LLMs の性能を向上させる効果を示しています。
しかし、これらの手法は正確な擬似ラベル推定に過度に依存し、偽情報ながらも人気の高い回答へと収束してしまい、支配的なモードにはまり込み、さらなる改善を制限します。
これを踏まえ、私たちは二段階のコンセンサスメカニズムを通じてより信頼できる学習信号を生成する能力を備えた、新規の自己教師付きトレーニング手法である Dual Consensus Reinforcement Learning（DCRL）を提案します。
モデルは最初にアンカーとして支配的な応答を生成します。次に探索者として機能し、一時的なアンラーニング過程を介して多様な補助信号を生成します。
最終的なトレーニング目標は、これら二つの信号セットの調和平均から導かれます。
特筆すべきは、この過程が外部モデルや監督なしで完全に動作する点です。
8つのベンチマークと多様なドメインにわたり、DCRLは多数決を上回るPass@1を一貫して改善し、より安定したトレーニングダイナミクスを生み出します。
これらの結果は、DCRLがラベルなしでより強力な推論へと拡張可能な道を確立することを示しています。

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

機械学習・ディープラーニングにおける数学の必要性

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Santa Augmentcode Intent Ep.6

Dev.to

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

Dev.to

デュアル・コンセンサス: 二段階投票機構による教師なしRLVRにおける偽の多数派からの脱出

要点

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

機械学習・ディープラーニングにおける数学の必要性

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Santa Augmentcode Intent Ep.6

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer