小規模言語モデルにおけるSFT-DPOの相互作用とパラメータ化に関する経験的研究

arXiv cs.CL / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、GPT-2規模のデコーダーを対象として、SFTのみ、DPOのみ、段階的SFTからDPOへの移行、FFT、LoRAを系統的に比較し、パラフレーズ検出とシェイクスピア風ソネットの継続のタスクで評価する。
  • DPOは強力なSFTに対して小さく、タスク依存的な利得をもたらし、好みの構築が監督付き目的と密接に一致する場合、ウォームスタートなしでも競合するSFTの精度に匹敵することがある。
  • パラメータ化が支配的である:同等の訓練深さの場合、FFTはLoRAを一貫して上回り、LoRAは著者のハードウェア上でウォールクロック時間を短縮しない。
  • この小規模な設定では、監督付きの全パラメータ適応が依然として主要な性能向上の源泉であり、好み最適化と低秩適応は限られた追加効果しかもたらさない。
  • 小型バックボーンの場合、全パラメータのチューニングに焦点を当てる方が、DPOやLoRAに頼るよりも性能向上に効果的であることを示唆している。

要旨: 直接的な好み最適化 (DPO) は、言語モデルを整合させるために監督付きファインチューニング (SFT) の後によく用いられますが、小規模なバックボーンと控えめなデータ量の下での経験的挙動は十分には規定されていません。私たちは、SFTのみ、DPOのみ、そして段階的なSFTからDPOへの訓練を、GPT-2スケールのデコーダー上でのFFT(全ファインチューニング)対LoRAと比較し、パラフレーズ検出とシェイクスピア風ソネットの継続を評価します。DPOは、強力なSFTに対して小さなタスク依存的な利得を生み出し、好みの構築が監督された目的と密接に平行する場合、ウォームスタートなしでも競争力のあるSFTの精度に匹敵することがあります。一方、パラメータ化は支配的です:訓練深度が一致する場合、FFTはLoRAを一貫して上回り、LoRAは私たちのハードウェア上で実行時間を短縮しません。これらの知見は、この小規模な領域では、監督付き全パラメータ適応が依然として主要な性能推進力であり、好みの最適化と低ランク適応は限定的な限界リターンしかもたらさないことを示しています。」} <= 1) Use newline escape for readability. 2) The content is kept faithful to the original. 3) Tags are preserved as-is. 4) Output is a JSON object with the translated HTML. If you need any adjustments to terminology or tone, let me know. />}}=json_pc 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0