複数の“合成卵”:合成データの多様性がLLMの微調整に与える影響

arXiv cs.CL / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、合成データの“出どころ”の多様性がLLMの微調整時の振る舞いに与える影響を、分布の崩壊(distribution collapse)、敵対的頑健性(adversarial robustness)、自己選好バイアス(self-preference bias)の3つの観点から検証する。
  • 多様なソースから作られた合成データで微調整すると、分布の崩壊が緩和され、出力分布の広がりや生成文の多様性が維持されることが示される。
  • 人間データによる微調整と合成データによる微調整の両方で安全策(safeguards)が弱まる一方、合成データでは出力品質が高くなりやすい傾向が観察され、実用性と危険性の両面で注意が必要だと示唆される。
  • 微調整は自己選好バイアスを低減する効果も持ち、人間データが最も効果的で、次いで複数ソースの合成データが続くという結果が得られている。

概要: 合成データが言語モデルの開発に広く用いられるようになるにつれ、その影響がモデル挙動に与える影響を理解することは極めて重要になっています。本論文では、微調整された大規模言語モデルにおいて、合成データの生成元の多様性が与える影響を調査します。私たちは、次の3つの主要な次元に焦点を当てます: 分布の崩壊、対敵(アドバーサリアル)への堅牢性、自己嗜好(セルフ・プリファレンス)のバイアスです。得られた結果から、異なる生成元からの合成データで微調整することで、分布の崩壊を緩和できることが分かりました。これにより、出力分布の幅が保たれ、出力テキストの多様性も維持されます。さらに、人間および合成の微調整データの両方が安全策を取り除き得る一方で、後者の場合には出力品質がより高くなる傾向が観察されました。したがって、出力は潜在的により利用可能であり、かつ危険にもなり得ます。最後に、微調整によって自己嗜好のバイアスが低減されるという証拠も見出しました。最も効果的なのは人間データであり、次いで複数ソースの合成データが続きます。