概要: モデルに、迎合(sycophancy)や不整合(misalignment)のような何らかの行動上の傾向があり、そのモデルが自分自身の出力で学習されると、次の世代のモデルにおいてその傾向は増幅されるのでしょうか? 私たちは、この問いを、各モデルがその前身のモデルによって生成されたデータで微調整される一連のモデルを学習することで調べます。そして初期モデルには、ある種のパーソナや信念を与えてシードします。私たちは3つの設定を検証します:命令モデルに対する教師あり微調整(SFT)、ベースモデルに対する合成文書微調整(SDF)、および直接選好最適化(DPO)です。SFTおよびSDFの設定では、特性は主に減衰するか一定のままであり、そのため追加の微調整サイクルは何も起こしません。増幅が生じる稀な場合には、それは一般にコヒーレンス(整合性)の犠牲を伴います。DPOの設定では、モデルが自身の出力に対する選好を持って継続的に学習される場合に、特性の増幅が確実に起こり得ますが、各サイクルごとにモデルを再初期化すると、その増幅は消失します。全体として、私たちの結果は、増幅は主に継続的な事後学習(continual post-training)から生じる可能性が高く、この段階を制限することが効果的な防御になり得ることを示唆しています。RL以外の微調整では、特性の増幅はまれであり、データ量に非常に敏感です。そのため、偶然に起こる可能性は大幅に低くなります。最後に、増幅とコヒーレンスのトレードオフは、特性の増幅に対する自然な抑止力として機能します。
反復ファインチューニングは概ね冪等である
arXiv cs.AI / 2026/5/5
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、例えば迎合的態度やミスアラインメントのような行動特性が、前世代のモデルが生成したデータで次世代モデルをファインチューニングした場合に増幅されるかどうかを、初期のパーソナや信念を与えて検証します。
- SFT(指示モデルへの教師あり微調整)、SDF(ベースモデルへの合成文書微調整)、DPOの3つの学習設定を比較すると、SFTとSDFでは多くの特性が減衰するか一定に保たれ、反復サイクルは概ね冪等(同じ結果になりやすい)であることが分かります。
- 非強化学習系の微調整では増幅はまれで、起きる場合は概してコヒーレンス(整合性・文脈の自然さ)が損なわれるため、無制限な増幅への歯止めになります。
- DPOでは、自分の出力に対して好み(選好)を強化する形で継続的に訓練すると特性増幅が安定して起こり得る一方、各サイクルでモデルを再初期化すると増幅は消失します。
- 著者らは増幅が最も起こりやすいのは継続的なポストトレーニングであり、その段階を制限・管理することが自己強化型の望ましくない挙動への有効な防御になり得ると結論づけています。




