RLVRにおける多肢選択問題の再考：ディストラクター設計による潜在能力の解放

arXiv cs.CL / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、RLVRベースのMCQにおける選択肢設計がモデルの推論と報酬ハッキングへの脆弱性にどのように影響するかを調査する。
訓練時とテスト時の選択肢数の不一致は性能を低下させること、そして強力な誤誘導選択肢が2択問でも有効なRLVRを可能にすることを示している。
新しい枠組み Iterative Distractor Curation (IDC) は、除外ショートカットを阻止し、より深い推論を促進する高品質なディストラクターを積極的に構築する。
複数のベンチマークにまたがる実験結果は、IDCがディストラクターの質を向上させ、元データに比べてRLVR訓練で顕著な改善をもたらすことを示している。

要約: 検証可能な報酬を用いた強化学習（RLVR）は、巨大言語モデルの推論能力を著しく向上させる。RLVR に適用される場合、選択式問題（MCQ）は検証可能なデータのスケーラブルなソースを提供するが、報酬ハッキングを誘発するリスクがある。モデルはランダム推測や単純な除外によって推論を近道する。現在のアプローチの多くは、MCQ をオープンエンデッド形式に変換することでこれを緩和するが、専門家設計のディストラクターが提供する対比信号を破棄してしまう。本研究では、RLVR における選択肢設計の影響を系統的に調査する。われわれの分析は二つの主要な洞察を浮き彫りにする：(1) 訓練時とテスト時の選択肢数の不一致は性能を低下させる。 (2) 強力なディストラクターはランダム推測を効果的に抑制し、2択の問題でも効果的な RLVR 訓練を可能にする。これらの知見に動機づけられ、Iterative Distractor Curation（IDC）を提案する。これは、除外のショートカットを遮断し深い推論を促進する高品質なディストラクターを積極的に構築するフレームワークである。さまざまなベンチマークの実験は、我々の手法がディストラクターの品質を効果的に向上させ、元のデータと比較して RLVR 訓練において顕著な成果をもたらすことを示している。

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

RLVRにおける多肢選択問題の再考：ディストラクター設計による潜在能力の解放

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも