前学習テキストに基づくルーブリック型自己対戦で、オープンエンド課題のポストトレーニング報酬信号をブートストラップする

arXiv cs.CL / 2026/4/23

📰 ニュースModels & Research

共有:

要点

この論文は、POPという自己対戦（self-play）によるポストトレーニング手法を提案し、数学やコーディングのような検証可能な課題に限らず、オープンエンド課題へ拡張する。
POPでは、同じLLMを用いて各例ごとに評価用ルーブリックと入出力ペアを生成し、そのルーブリックでモデル出力を採点して学習に利用する。
自己対戦の学習信号の信頼性を高めるため、内容が豊富な前学習コーパスを活用し、生成と検証のギャップにより報酬ハッキングを抑え、モード崩壊も防ぐ。
Qwen-2.5-7Bでの実験では、POPが事前学習モデルとインストラクション調整モデルの双方で、長文の医療QAから創作文章や指示追従まで幅広いタスクに対して性能向上を示した。
この手法は、ポストトレーニングで必要な入出力ペアを人手や高コストなプロプライエタリ・モデルに頼りにくくし、データ面のボトルネック解消を狙う。

要旨: セルフプレイは、Large Language Models（LLMs）を訓練するための有望なパラダイムとして、近年注目を集めています。セルフプレイでは、対象のLLMがタスク入力（例：質問する）を作成し、その後、自分自身でタスク出力（例：答えを返す）を生成することでそれに応答します。報酬モデルが出力を評価し、その報酬は通常、強化学習（RL）を通じてLLMの訓練に用いられます。セルフプレイは監督コストが最小限で済み、特にポストトレーニングのLLMにとって有益です。ポストトレーニングでは、高品質な入力・出力ペアが必要ですが、従来はそれを人間が書くか、あるいは高価な独自モデルに依存していました。しかし、既存研究は数学やコーディングのような検証可能なタスクに対してのみセルフプレイを扱っています。そこで本研究では、それをより現実的なオープンエンドのタスクへ拡張することを目指します。具体的には、各例ごとに、同じLLMを用いて評価ルーブリックと入力・出力ペアを合成するセルフプレイの枠組みであるPOPを提案します。次に、このルーブリックを用いて出力を評価し、モデルの訓練を行います。さらに、この枠組みを、内容の豊富な事前学習コーパスに基づいて、(1) 生成と検証のギャップを確保し、報酬ハッキングを抑制し、(2) モード崩壊を防ぎます。Qwen-2.5-7Bにおいて、POPは、長文のヘルスケアQAから創造的な文章作成、指示追従に至るまでのさまざまなタスクにわたって、事前学習済みモデルと指示チューニング済みモデルの両方の性能を向上させます。