GroupDPO:メモリ効率の高いグループ単位のDirect Preference Optimization

arXiv cs.CL / 2026/4/20

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、従来のグループ結合型目的関数のスケーラビリティ課題に対処する、メモリ効率の高いGroupDPOを提案する。
  • グラディエントを維持しつつバックプロパゲーション時にサンプルをデカップリングすることで、ピーク時のGPUメモリ使用量を大幅に削減し、より大きい候補群での学習を可能にする。
  • オフラインおよびオンラインのアライメント設定の両方で、プロンプトごとに複数の応答を用いる手法が単一の正負ペア学習より一貫して優れた性能を示す。
  • 正例(ポジティブ)応答に対する負の対数尤度(NLL)項を加えることが、性能向上と学習の安定性の両方にとって重要であることが示される。

Abstract

選好最適化は、嗜好フィードバックに基づいて大規模言語モデル(LLM)を整合させるために広く用いられています。しかし、既存の多くの手法は、プロンプトごとに単一の正(positive)-負(negative)ペアで学習し、通常は複数の候補応答を含む嗜好データセットに利用可能な追加の教師信号を破棄しています。この制約に動機づけられて、近年では、同一プロンプトに対する複数の応答を同時に対比するグループごとの選好最適化が検討されていますが、グループ結合型目的関数によるメモリオーバーヘッドのため、その実験的挙動やスケーラビリティは十分に調査されていません。本研究では、勾配を保持しつつ逆伝播中にサンプルをデカップリングする、メモリ効率の高いグループごとの選好最適化アルゴリズムを提案します。これによりピークメモリ使用量が大幅に削減され、より大きなグループサイズでのスケーラブルな学習が可能になります。オフラインおよびオンラインの整合設定の両方において、複数の応答を活用することが、単一ペア学習よりも一貫して優れていることを示します。さらに、正の応答に対する負の対数尤度(NLL)項の導入は、性能向上と学習の安定性の両方にとって重要であることを明らかにします。