Abstract
合成トレーニングデータによって言語モデルを制御することには、どのような限界があるのでしょうか。我々は、強化学習(RL)のプリミティブである Dataset Policy Gradient(DPG)を開発します。これは、合成データ生成器を精密に最適化して、狙った例からなるデータセットを生成できるものです。これを、対象モデルの教師あり微調整(SFT)に用いると、これらの例によって対象モデルは、我々が選択した任意の微分可能な指標で良い性能を示すようになります。我々の手法は、高次の勾配による正確なデータ帰属(attribution)を行い、そのスコアをポリシー勾配報酬として用いることで実現しています。この手順が、合成データ生成器に対する真の、計算困難な勾配をきわめて厳密に近似することを証明します。DPG の可能性を示すために、生成された例に対する SFT だけを用いて、対象モデルの LM head の重みが (1) QRコードを埋め込み、(2) パターン exttt{67} を埋め込み、(3) 低い l^2 ノルムを持つようにできることを示します。さらに、(4) 入力を新しい言語に言い換え、(5) 特定の UUID を生成させることも、生成器の入力プロンプトにはこれらの目的が一切伝えられていないにもかかわらず可能であることを示します。これらの結果は、DPG が、合成トレーニング例だけを使ってモデルの性質を形成するための強力で柔軟な手法であることを示唆しています。