相対報酬への回帰によるオンライン分布ロバストLLMアライメント

arXiv stat.ML / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、オフラインRLHFで起きる過最適化（学習時の不正確さに過剰適合して好ましい挙動から逸脱する問題）に対処するため、アライメントに分布ロバスト最適化（DRO）を導入することを狙っている。
DRO-REBELと呼ばれる新手法を提案し、type-p Wasserstein、KL、chi^2の曖昧さ集合に基づく「オンラインDROベースのREBEL更新」を構築して、強い双対性により各更新を相対報酬回帰として言い換える。
先行するDRO-DPOと比べて、DRO-REBELはサンプル効率の悪さや、異質な嗜好（heterogeneous preferences）の取り扱い欠如、脆いヒューリスティックへの依存を避け、PPO型のクリッピングや価値ネットワークも不要としている。
理論面では、前提条件のもとでoodtilde{O}(sqrt(d/n))の誤差・収束境界を示し、さらに嗜好シフト下ではoodtilde{O}(d/n)の改善されたパラメトリックな率を与えている。
実験では、Emotion Alignment（ArmoRMマルチ目的ベンチマーク）およびHH-Alignmentにおいて、未観測の嗜好混合・モデル規模・データセット規模のいずれに対しても、頑健/非頑健の既存ベースラインを上回った。

Abstract

人間のフィードバックによる強化学習（RLHF）は、LLM（大規模言語モデル）を人間の意図に整合させるために重要になってきました。しかし、既存のオフラインRLHF手法は、過度最適化に悩まされています。これは、言語モデルが不正確さに過適合して劣化し、学習時に観測された望ましい振る舞いから逸脱していく現象です。分布的に頑健な最適化（DRO）は自然な解決策ですが、既存のDRO-DPO手法はサンプル効率が悪く、嗜好の異質性を無視し、脆いヒューリスティックに依存しています。そこで本研究では、 \emph{DRO-REBEL}、すなわち type-

p

Wasserstein、Kullback-Leibler（KL）、

chi^2

曖昧性集合に基づく頑健なオンラインREBEL更新のファミリーを導入します。強い双対性により、各更新は相対報酬回帰にまで還元されます。これにより、PPOスタイルのクリッピングや価値ネットワークなしで、REBELのスケーラビリティを維持します。線形報酬、対数線形ポリシー、標準的なカバレッジ条件のもとで、二乗パラメータ誤差に対する

widetilde{O}(sqrt{d/n})

の境界を、先行するDRO-DPO解析よりも鋭い定数付きで証明します。また、嗜好シフトのもとでDROに基づく整合のための最初のパラメトリックな

widetilde{O}(d/n)

レートを与えます。これは良性の状況における非頑健RLHFと一致します。各発散は、計算可能なSGDベースのアルゴリズムに落とし込みます。Wassersteinには勾配正則化、KLには重要度重み付け、

chi^2

には1次元の双対問題の解を用います。Emotion Alignment、ArmoRMのマルチ目的ベンチマーク、およびHH-Alignmentにおいて、DRO-REBELは、未見の嗜好混合、モデルサイズ、データセット規模にわたって、先行する頑健・非頑健のベースラインを上回ります。

Black Hat USA

AI Business

ブラックハット・アジア

AI Business

M5 Pro 24GBでQwen 3.6を動かすならどのバージョン（量子化）？

Reddit r/LocalLLaMA

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

相対報酬への回帰によるオンライン分布ロバストLLMアライメント

要点

Abstract

関連記事

Black Hat USA

ブラックハット・アジア

M5 Pro 24GBでQwen 3.6を動かすならどのバージョン（量子化）？

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer