概要: 不完全な報酬信号が存在する状況下で堅牢な強化学習(RL)エージェントを設計することは、依然として中核的な課題である。実際には、エージェントはしばしば真の目的を近似するだけの代理報酬で訓練されるため、意図しない、または搾取的(エクスプロイト的)な振る舞いによって高い代理報酬が生じる「報酬ハッキング」に対して脆弱になる。近年の研究では、代理報酬と真の報酬の間の r 相関によってこの問題を形式化しているが、占有率正則化付きポリシー最適化(ORPO)のような既存手法は固定された代理報酬に対して最適化するだけで、相関をもつより広いクラスの代理報酬に対する強い保証を提供しない。本研究では、報酬ハッキングを、すべての r 相関をもつ代理報酬の空間上における堅牢なポリシー最適化問題として定式化する。導出したのは、追跡可能な(取り扱い可能な)最大-最小(max-min)表現であり、エージェントは相関制約に整合する最悪の場合の代理報酬のもとで性能を最大化する。さらに、報酬が既知の特徴量に対する線形関数である場合には、このアプローチをその事前知識を組み込むように適応できることを示す。これにより、改善されたポリシーと解釈可能な最悪ケースの報酬の両方が得られる。複数の環境にわたる実験では、提案手法のアルゴリズムが最悪ケースのリターンにおいて一貫して ORPO を上回り、代理報酬と真の報酬の相関の異なるレベルにわたって堅牢性と安定性が向上することを示す。これらの結果は、報酬設計が本質的に不確実である状況において、本手法が堅牢性と透明性の両方を提供することを示している。コードは https://github.com/ZixuanLiu4869/reward_hacking で公開されている。
相関プロキシによる報酬ハッキングを緩和するための堅牢最適化
arXiv cs.LG / 2026/4/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、強化学習における報酬ハッキングに対し、プロキシ報酬が真の目的と完全に一致することを仮定せず、不完全なプロキシ報酬で学習する堅牢なエージェントを設計することで対処する。
- 報酬ハッキングを、真の報酬と r-相関制約を満たすプロキシ報酬全体にわたる堅牢な方策最適化問題として再定式化し、最悪の場合の相関プロキシに対抗するための扱いやすい min-max(最大最小)定式化を導く。
- 報酬が既知の特徴量に線形である場合には、その事前構造を活用するように手法を拡張し、より良い方策と、解釈可能な最悪ケース報酬を得る。
- 複数の環境における実験では、提案アルゴリズムが、最悪ケースのプロキシリターンにおいて ORPO を上回り、プロキシと真の報酬の相関が変化しても堅牢性と安定性が向上することを示す。
- 著者らはコードを公開しており、研究者が堅牢性/透明性のアプローチを再現し、発展させることを可能にしている。




