AI Navigate

期待を超える Safe RLHF:ユニバーサルスペクトルリスク制御のための確率的支配

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • RLHFの安全性は現在、期待コスト制約に依存しており、裾リスクを見逃しがちで、特に裾が重い分布や稀なイベント下でのリスクを十分に捉えられません。
  • 本研究は、First-Order Stochastic Dominance(FSD)制約を用いた RAD(Risk-sensitive Alignment via Dominance)を提案し、コスト分布全体を制御するためにスカラーの期待コスト制約を置換します。
  • この制約は、エントロピー正則化と Sinkhorn イテレーションを用いた最適輸送(OT)フレームワーク内で、ターゲットポリシーと参照ポリシーのコスト分布を比較することで実現され、微分可能で計算効率の高い目的関数を得て安定なエンドツーエンド最適化を可能にします。
  • さらに、分位点重み付きFSD制約を導入し、加重FSDが広範なSRMs(スペクトルリスク測度)を普遍的に制御することを示します。これにより、加重支配の改善は対応するスペクトルリスクの改善を保証します。
  • 本手法は、分位点重み関数を介してモデルのリスクプロファイルを調整する原理的機構を提供します。
  • 実証的な結果は、RADがベースラインより無害性を改善しつつ有用性でも競争力を維持し、分布外の無害性評価でより高い頑健性を示すことを示しています。
要旨: 人間のフィードバックからの安全な強化学習(RLHF)は通常、期待コスト制約を介して安全性を強制します。しかし、期待値はコスト分布の単一の統計量しか捉えず、裾の不確実性、特に裾が重い分布や稀な壊滅的イベントを考慮できません。この制限は、ロバスト性とリスク感度が重要となる状況で問題となります。確率的支配は、平均だけでなく分布全体を比較することにより原理的な代替手段を提供し、裾リスクや期待値ベースの制約が見逃す可能性のある分布外の失敗を直接制御できるようにします。本研究では、First-Order Stochastic Dominance(FSD)制約を用いた新しい整列フレームワーク「Risk-sensitive Alignment via Dominance(RAD)」を提案します。RADは、スカラーの期待コスト制約をFSD制約へ置換する新しい整列フレームワークです。OT(最適輸送)フレームワーク内でターゲットポリシーのコスト分布を参照ポリシーの分布と比較することでこの制約を実現し、エントロピー正則化と Sinkhorn イテレーションを用いて、微分可能で計算効率の高いエンドツーエンド最適化のための目的関数を得て安定したエンドツーエンド最適化を実現します。さらに、分位点重み付きの FSD 制約を導入し、加重 FSD が広範なスペクトルリスク測度(SRMs)を普遍的に制御することを示します。従って、加重支配の改善は対応するスペクトルリスクの改善を保証します。これにより、分位点重み付け関数を介してモデルのリスクプロファイルを調整する原理的機構が提供されます。実証結果は、RAD がベースラインより無害性を改善しつつ有用性でも競争力を維持し、分布外の無害性評価においてより高い頑健性を示すことを示しています。