ギャップに注意:嗜好学習における構造認識の整合性

arXiv cs.LG / 2026/5/1

📰 ニュースModels & Research

要点

  • この論文は、DPOのような手法が代理の損失を最適化して本来のペアワイズ順位付け損失を直接扱わない場合、神経ネットで典型的な等連続性の仮説集合のもとでは理論的に不整合になり得ると主張しています。
  • LLMアラインメントをマージンをずらした順位付けの枠組みとして定式化し、分離マージンγを満たすことに依存する厳密なH整合性(H-consistency)境界を導出しています。
  • さらに、構造認識(Structure-Aware)なH整合性を拡張し、新しい目的関数SA-DPOを提案します。これは意味的距離に応じてマージンを適応させ、同義語や難しい(ハードな)選好ペアへの対応を強化します。
  • Margin-Capacity Profileによって整合性とモデル容量のトレードオフを分析し、重い裾を持つ代理損失(Polynomial Hingeファミリーなど)が、DPOで用いられる標準のロジスティック損失よりも容量制約下モデルに対して優れた整合性保証を与え得ると結論づけています。

概要: 推論嗜好学習(Preference learning)は、大規模言語モデル(LLM)を人間の意図に整合させるための基盤となっています。Direct Preference Optimization(DPO)のような代表的な手法は、解くことが困難なペアワイズ順位付け損失の代理として、サロゲート損失を最小化します。しかし本研究では、ニューラルネットワークに典型的な、等連続性(equicontinuity)の仮説集合に対して、これらの標準的サロゲートが理論的に一貫性を欠き(inconsistent)、空虚な一般化保証しか得られないことを示します。これを解決するために、マージンをずらした順位付け(margin-shifted ranking)フレームワークのもとでLLMアライメントを定式化します。分離マージン\(\gamma\) を強制することに依存する、厳密な \(H\)-一貫性(\(H\)-consistency)境界を導出します。重要な点として、これを構造認識型 \(H\)-一貫性(Structure-Aware H-consistency)へ拡張し、新しい目的関数(SA-DPO)を導入します。SA-DPOは、同義語や難しいペア(hard pairs)を扱うために、応答間の意味的距離に応じてマージンを適応させます。最後に、Margin-Capacity Profile により、一貫性とモデルの制約のトレードオフを分析し、DPOで用いられる標準的なロジスティック損失と比べて、ヘビー・テイル型サロゲート(たとえば Polynomial Hinge ファミリ)が、容量が制限されたモデルに対してより優れた一貫性保証を与えることを証明します。