GroupDPO:メモリ効率の高いグループ単位のDirect Preference Optimization
arXiv cs.CL / 2026/4/20
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、従来のグループ結合型目的関数のスケーラビリティ課題に対処する、メモリ効率の高いGroupDPOを提案する。
- グラディエントを維持しつつバックプロパゲーション時にサンプルをデカップリングすることで、ピーク時のGPUメモリ使用量を大幅に削減し、より大きい候補群での学習を可能にする。
- オフラインおよびオンラインのアライメント設定の両方で、プロンプトごとに複数の応答を用いる手法が単一の正負ペア学習より一貫して優れた性能を示す。
- 正例(ポジティブ)応答に対する負の対数尤度(NLL)項を加えることが、性能向上と学習の安定性の両方にとって重要であることが示される。



