RLHFおよびSGLDのためのテール(裾)対応・情報理論的汎化
arXiv stat.ML / 2026/4/14
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、損失/報酬が重い裾(heavy-tailed)をもつ場合に、従来のKL/MGF(モーメント母関数)に基づく上界が成立しない状況を扱うため、RLHFおよび確率的最適化に対するテール対応の情報理論的汎化枠組みを導入する。
- 尾の重さを表すために、サブワイブル(sub-Weibull)パラメータ\(\theta\)を用い、\(\theta=2\)をサブガウス、\(\theta=1\)をサブ指数、\(0<\theta<1\)を真に重い裾のレジームに対応づける。
- 中核となる技術的結果は、シフトした対数を用いた\(f_\theta\)-ダイバージェンスにより、測度変換(change-of-measure)の期待値を制御するデコリレーション(非相関化)補題であり、MGF議論を避けつつRényiダイバージェンスとの明示的な比較も行う。
- 著者らは、サブワイブル過程に対する最大不等式およびDudley/チェイニング(chaining)による上界を開発し、計算量が\(\log^{1/\theta}\)およびエントロピー^{1/\theta}のスケーリングで表されることを示す。さらに、期待値型および高確率型のPAC-Bayes汎化保証を導出する。
- この枠組みを、重い裾の報酬を伴うRényi正則化RLHF、および重い裾の勾配ノイズを伴うSGLDに適用し、新たに得られたテール依存の上界が、現実的なRL設定における汎化挙動をどのように特徴づけられるかを示す。




