Abstain-R1：検証可能な強化学習（Verifiable RL）による較正された棄権と、拒否後の明確化

arXiv cs.CL / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、大規模言語モデルの強化微調整が解けない質問に対して推測や幻覚で回答する誘因になり得るため、信頼できるモデルは棄権しつつ「何が欠けているか」を説明すべきだと主張する。
「clarification-aware RLVR（棄権と明確化を意識したRLVR）報酬」を提案し、答えられない質問では明示的な棄権を、拒否後には意味的に整合した追質問（明確化）を同時に最適化する。
この報酬で「Abstain-R1」（3Bモデル）を学習させ、答えられない質問での振る舞いを改善しつつ、答えられる質問での性能は維持する。
Abstain-Test、Abstain-QA、SelfAware の実験では、ベースモデルから大きく改善し、未解決クエリへの振る舞いが DeepSeek-R1 のようなより大きなシステムと競争的であることが示される。
これらの結果は、較正された棄権と拒否後の明確化が、モデル規模の増大だけでなく検証可能な強化学習報酬によって学習可能であることを示唆している。

要旨: 強化学習による微調整は、大規模言語モデルの推論能力を向上させますが、推測や幻覚によって欠けている情報を埋める形で、答えられない問い合わせに答えることを助長することもあります。既存の棄権（abstention）手法は、モデルに一般的な拒否を生成するよう訓練するか、あるいは、その明確化が何が主要な欠落情報であるかを特定できているかどうかを検証せずに、追質問による明確化を促すものです。我々は、意味としては明確であるものの、与えられた情報だけでは確実に解決できない問いを研究し、信頼できるモデルは棄権するだけでなく、何が欠けているのかを説明すべきだと論じます。そこで、明確化を意識したRLVR報酬を提案します。この報酬は、答えられる問いに対して正しい回答を報いる一方で、答えられない問いでは、明示的な棄権と、意味的に整合した棄権後の明確化を共同で最適化します。この報酬を用いて、Abstain-R1（3Bモデル）を学習します。Abstain-R1は、答えられない問いに対する棄権と明確化を改善しつつ、答えられる問いにおける強い性能を維持します。Abstain-Test、Abstain-QA、SelfAwareに関する実験により、Abstain-R1は基盤モデルに比べて大幅に改善し、DeepSeek-R1を含むより大きなシステムと競争力のある、答えられない問いの振る舞いを達成することが示されています。これは、校正された棄権と明確化が、規模の拡大から偶発的に生じるのではなく、検証可能な報酬を通じて学習できることを示唆しています。