要約: 検証可能な報酬を用いた強化学習(RLVR)は、巨大言語モデルの推論能力を著しく向上させる。RLVR に適用される場合、選択式問題(MCQ)は検証可能なデータのスケーラブルなソースを提供するが、報酬ハッキングを誘発するリスクがある。モデルはランダム推測や単純な除外によって推論を近道する。現在のアプローチの多くは、MCQ をオープンエンデッド形式に変換することでこれを緩和するが、専門家設計のディストラクターが提供する対比信号を破棄してしまう。本研究では、RLVR における選択肢設計の影響を系統的に調査する。われわれの分析は二つの主要な洞察を浮き彫りにする:(1) 訓練時とテスト時の選択肢数の不一致は性能を低下させる。 (2) 強力なディストラクターはランダム推測を効果的に抑制し、2択の問題でも効果的な RLVR 訓練を可能にする。これらの知見に動機づけられ、Iterative Distractor Curation(IDC)を提案する。これは、除外のショートカットを遮断し深い推論を促進する高品質なディストラクターを積極的に構築するフレームワークである。さまざまなベンチマークの実験は、我々の手法がディストラクターの品質を効果的に向上させ、元のデータと比較して RLVR 訓練において顕著な成果をもたらすことを示している。
RLVRにおける多肢選択問題の再考:ディストラクター設計による潜在能力の解放
arXiv cs.CL / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、RLVRベースのMCQにおける選択肢設計がモデルの推論と報酬ハッキングへの脆弱性にどのように影響するかを調査する。
- 訓練時とテスト時の選択肢数の不一致は性能を低下させること、そして強力な誤誘導選択肢が2択問でも有効なRLVRを可能にすることを示している。
- 新しい枠組み Iterative Distractor Curation (IDC) は、除外ショートカットを阻止し、より深い推論を促進する高品質なディストラクターを積極的に構築する。
- 複数のベンチマークにまたがる実験結果は、IDCがディストラクターの質を向上させ、元データに比べてRLVR訓練で顕著な改善をもたらすことを示している。