モードの彼方へ到達する：言語モデルにおける分布的推論のための強化学習（RL）

arXiv cs.AI / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

言語モデルは暗黙的に解答に対する分布を表現しているが、一般的な事後学習手法ではそれが単一の支配的モードへと崩れてしまうことがあり、曖昧さや複数の妥当な解答を含むタスクに悪影響を及ぼし得る。
本論文では、1回のフォワードパスで複数のもっともらしい仮説を生成しつつ、信頼度を考慮した出力を行うことで、言語モデルに分布的推論を行わせる多解答強化学習（RL）手法を提案する。
RL目的関数を修正することで、推論時の探索の一部を生成の内部に取り込み、非モード解答を見つけるために計算集約的な反復サンプリングを行う必要性を減らす。
質問応答、医療診断、コーディングのベンチマークにおける実験では、単一解答のRLベースラインと比べて、多様性、カバレッジ、集合（set）レベルのキャリブレーションが改善し、複数の解答を出力するのに必要なトークン数も少ないことが示される。
コーディングタスクでは、多解答RLモデルが実質的に高い精度も達成しており、本手法は best-of-k のような推論時スケーリング戦略の、計算効率に優れた代替手段として位置付けられる。

Abstract

質問が与えられると、言語モデル（LM）は、取り得る回答の分布を暗黙的に符号化します。実際には、LMに対する事後学習（post-training）の手続きによって、この分布が単一の優勢なモードへとしばしば崩れてしまいます。これは一般に、ただ一つの正解を前提とするベンチマーク型の評価では大きな問題になりません。しかし、現実の多くのタスクでは、本質的に複数の正当な答えや、避けられない不確実性が含まれます。例としては、医療診断、曖昧な質問応答、情報が不完全な状況などが挙げられます。このような場合、LMには、各仮説ごとの信頼度推定が理想的には付随しつつ、かつ非モーダルな答えを生成するために計算集約的な反復サンプリングを行わずに、複数のもっともらしい仮説を生成してほしいのです。本論文では、推論時に複数の回答に対する分布推論を行うようにLMを訓練するための、マルチアンサー強化学習アプローチを述べます。我々はRLの目的関数を修正し、モデルが1回のフォワードパスで複数の候補回答を明示的に生成できるようにします。これにより、推論時探索の側面を、モデルの生成過程へ内在化します。質問応答、医療診断、コーディングの各ベンチマークにおいて、単一回答で訓練したベースラインと比べて、多様性、カバレッジ、集合（セット）レベルの較正スコアが向上することを観察しました。また、本手法で訓練したモデルは、複数の回答を生成するのに競合手法よりも少ないトークン数で済みます。コーディング課題では、さらに精度が大幅に高いことが示されます。これらの結果は、マルチアンサーRLが、best-of-kのような推論時スケーリング手続きに対する、原理的かつ計算効率のよい代替手法であることを位置づけます。コードおよび詳細情報は https://multi-answer-rl.github.io/ で確認できます。