小規模言語モデルにおけるSFT-DPOの相互作用とパラメータ化に関する経験的研究

arXiv cs.CL / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、GPT-2規模のデコーダーを対象として、SFTのみ、DPOのみ、段階的SFTからDPOへの移行、FFT、LoRAを系統的に比較し、パラフレーズ検出とシェイクスピア風ソネットの継続のタスクで評価する。
DPOは強力なSFTに対して小さく、タスク依存的な利得をもたらし、好みの構築が監督付き目的と密接に一致する場合、ウォームスタートなしでも競合するSFTの精度に匹敵することがある。
パラメータ化が支配的である：同等の訓練深さの場合、FFTはLoRAを一貫して上回り、LoRAは著者のハードウェア上でウォールクロック時間を短縮しない。
この小規模な設定では、監督付きの全パラメータ適応が依然として主要な性能向上の源泉であり、好み最適化と低秩適応は限られた追加効果しかもたらさない。
小型バックボーンの場合、全パラメータのチューニングに焦点を当てる方が、DPOやLoRAに頼るよりも性能向上に効果的であることを示唆している。

要旨: 直接的な好み最適化 (DPO) は、言語モデルを整合させるために監督付きファインチューニング (SFT) の後によく用いられますが、小規模なバックボーンと控えめなデータ量の下での経験的挙動は十分には規定されていません。私たちは、SFTのみ、DPOのみ、そして段階的なSFTからDPOへの訓練を、GPT-2スケールのデコーダー上でのFFT（全ファインチューニング）対LoRAと比較し、パラフレーズ検出とシェイクスピア風ソネットの継続を評価します。DPOは、強力なSFTに対して小さなタスク依存的な利得を生み出し、好みの構築が監督された目的と密接に平行する場合、ウォームスタートなしでも競争力のあるSFTの精度に匹敵することがあります。一方、パラメータ化は支配的です：訓練深度が一致する場合、FFTはLoRAを一貫して上回り、LoRAは私たちのハードウェア上で実行時間を短縮しません。これらの知見は、この小規模な領域では、監督付き全パラメータ適応が依然として主要な性能推進力であり、好みの最適化と低ランク適応は限定的な限界リターンしかもたらさないことを示しています。」} <= 1) Use newline escape for readability. 2) The content is kept faithful to the original. 3) Tags are preserved as-is. 4) Output is a JSON object with the translated HTML. If you need any adjustments to terminology or tone, let me know. />}}=json_pc 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

小規模言語モデルにおけるSFT-DPOの相互作用とパラメータ化に関する経験的研究

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer