あらゆる微分可能なターゲットのための合成データ

arXiv cs.CL / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、選択した微分可能なターゲット指標に合わせてデータセットを生成するよう合成データ生成器を最適化するための強化学習のプリミティブである Dataset Policy Gradient(DPG)を提案する。
  • DPGは高次の勾配を用いてデータの帰属(attribution)を計算し、その帰属スコアをポリシーグラディエントの報酬へ変換することで、そうでなければ生成器に対して計算が困難な勾配を精度よく近似する。
  • 生成したデータを教師あり微調整(SFT)に使用すると、選択した微分可能な指標においてターゲットの言語モデルが改善することが示され、合成学習による制御可能な挙動が実証される。
  • 著者らは、具体的なターゲット・シェーピングの成果として、モデルのLMヘッドの重みに特定のパターン(例:QRコードや「67」というパターン)を埋め込ませること、また重みの l2ノルムを減少させることを示す。
  • さらに、生成器は、生成器のプロンプトにその目的が含まれていなくても、新しい言語での言い換えや、特定のUUIDの生成といった振る舞いを誘発できることを示し、制御可能な目的の柔軟性を強調する。

Abstract

合成トレーニングデータによって言語モデルを制御することには、どのような限界があるのでしょうか。我々は、強化学習(RL)のプリミティブである Dataset Policy Gradient(DPG)を開発します。これは、合成データ生成器を精密に最適化して、狙った例からなるデータセットを生成できるものです。これを、対象モデルの教師あり微調整(SFT)に用いると、これらの例によって対象モデルは、我々が選択した任意の微分可能な指標で良い性能を示すようになります。我々の手法は、高次の勾配による正確なデータ帰属(attribution)を行い、そのスコアをポリシー勾配報酬として用いることで実現しています。この手順が、合成データ生成器に対する真の、計算困難な勾配をきわめて厳密に近似することを証明します。DPG の可能性を示すために、生成された例に対する SFT だけを用いて、対象モデルの LM head の重みが (1) QRコードを埋め込み、(2) パターン exttt{67} を埋め込み、(3) 低い l^2 ノルムを持つようにできることを示します。さらに、(4) 入力を新しい言語に言い換え、(5) 特定の UUID を生成させることも、生成器の入力プロンプトにはこれらの目的が一切伝えられていないにもかかわらず可能であることを示します。これらの結果は、DPG が、合成トレーニング例だけを使ってモデルの性質を形成するための強力で柔軟な手法であることを示唆しています。