モードの彼方へ到達する:言語モデルにおける分布的推論のための強化学習(RL)
arXiv cs.AI / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 言語モデルは暗黙的に解答に対する分布を表現しているが、一般的な事後学習手法ではそれが単一の支配的モードへと崩れてしまうことがあり、曖昧さや複数の妥当な解答を含むタスクに悪影響を及ぼし得る。
- 本論文では、1回のフォワードパスで複数のもっともらしい仮説を生成しつつ、信頼度を考慮した出力を行うことで、言語モデルに分布的推論を行わせる多解答強化学習(RL)手法を提案する。
- RL目的関数を修正することで、推論時の探索の一部を生成の内部に取り込み、非モード解答を見つけるために計算集約的な反復サンプリングを行う必要性を減らす。
- 質問応答、医療診断、コーディングのベンチマークにおける実験では、単一解答のRLベースラインと比べて、多様性、カバレッジ、集合(set)レベルのキャリブレーションが改善し、複数の解答を出力するのに必要なトークン数も少ないことが示される。
- コーディングタスクでは、多解答RLモデルが実質的に高い精度も達成しており、本手法は best-of-k のような推論時スケーリング戦略の、計算効率に優れた代替手段として位置付けられる。
広告



