AI Navigate

LLMのアラインメントには本当に多様性が必要か?道徳的推論のためのRLVR手法適用に関する実証研究

arXiv cs.AI / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • MoReBench における LLM アラインメントで、分布一致型 RLVR アプローチと報酬最大化法を経験的に比較する論文である。
  • RLVRを安定化させるため、著者らは ルーブリックに基づく報酬パイプラインを Qwen3-1.7B 判定モデルを用いて訓練した。
  • 仮説とは反対に、分布適合アプローチは道徳的推論タスクで期待されるほど報酬最大化法より有意な利点を示さなかった。
  • 著者らは、道徳的推論には高報酬の分布がより集中していることを発見し、モード探索型最適化が多様性を保持する方法と同等かそれ以上に有効になり得る理由を説明し、明示的な多様性機構なしで標準の RLVR が道徳的推論へ転移できることを示唆している。
要旨: 強化学習と検証可能な報酬(RLVR)は論理推論タスクで顕著な成功を収めてきたが、大規模言語モデル(LLM)のアラインメントが本質的に異なるアプローチを必要とするかどうかはまだ不明である。道徳的推論には複数の有効な応答が許容されるように見えることから、アラインメントタスクは自然に多様性志向の分布適合アルゴリズムを必要とするのではなく、報酬最大化方針ベースの方法を必要とするのではないか、という仮説が立つ。著者らは MoReBench 上の両パラダイムを比較する初の包括的な経験研究を行う。安定した RLVR 訓練を可能にするため、ルーブリックに基づく報酬パイプラインを構築し、Qwen3-1.7B 判定モデルを訓練して用いた。仮説とは反対に、分布適合アプローチはアラインメントタスクで期待されるほど報酬最大化法より有意な利点を示さなかった。高報酬の応答を意味空間へ写像する意味的可視化を通じて、道徳的推論は数学的推論よりも高報酬分布がより集中して現れることを示し、さまざまな解法戦略が同様の高報酬を生む場合でも、モード探索型最適化がアラインメントタスクに対して等しく、あるいはより効果的であることを説明する。この直感に反する発見は、アラインメントタスクが多様性を保持するアルゴリズムを本質的に必要としないこと、そして明示的な多様性機構なしで標準の報酬最大化 RLVR 手法が道徳的推論へ効果的に転移しうることを示唆している。