報酬ハッキングを抑えるための不確実性を考慮した報酬ディスカウンティング

arXiv cs.AI / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • この論文は、実世界の目的が不確実で文脈依存かつ内部的に矛盾しやすい状況で、スカラー報酬を最適化することが報酬ハッキングや過度に確信した行動につながり得るという問題を扱います。
  • 提案手法は、価値推定のアンサンブル不一致によるエピステミック不確実性と、報酬アノテーションのばらつきから導く嗜好(選好)の不確実性の両方を明示的にモデル化するデュアルソースの枠組みです。
  • これらの不確実性シグナルを、信頼度で調整されたReliability Filterによって統合し、不確実性があるときの行動選択を適応的に変えることで、探索(用心)と搾取(活用)のバランスを取ります。
  • グリッドワールド(6x6、8x8、10x10)および連続制御タスク(Hopper-v4、Walker2d-v4)での実験では、報酬の曖昧さ下での搾取的挙動が大きく減り、罠への訪問頻度で93.7%の報酬ハッキング低減が報告されています。
  • ただし、改善にはトレードオフがあり、不確実性を通じた安全性のために、無制約のベースラインに比べてピークの観測報酬は下がるとされています。

Abstract

強化学習(RL)システムは通常、結果の評価が正確で信頼できることを前提としたスカラー報酬関数を最適化します。しかし現実世界の目的--特に人間の嗜好から導かれるもの--はしばしば不確実であり、文脈依存で、さらに内部的に一貫していないことがあります。この不一致は、報酬ハッキング、過剰最適化、過度に確信した行動といったアライメントの失敗につながり得ます。 本研究では、二重ソースの不確実性を考慮した報酬フレームワークを導入します。このフレームワークは、価値推定におけるエピステミック不確実性と、人間の嗜好における不確実性の両方を明示的にモデル化します。モデル不確実性は価値予測に対するアンサンブルの不一致によって捉え、一方で嗜好不確実性は報酬アノテーションのばらつきから導出します。これらの信号を、信頼度で調整されたReliability Filter(信頼性フィルタ)により統合し、行動選択を適応的に調節することで、活用(exploitation)と慎重さ(caution)のバランスを促します。 6x6、8x8、10x10の複数の離散グリッド構成、および高次元の連続制御環境(Hopper-v4、Walker2d-v4)にまたがる実験結果は、本アプローチがより安定した学習ダイナミクスをもたらし、報酬の曖昧さの下で搾取的な行動を減らすことを示しています。罠(トラップ)への訪問頻度により測定した報酬ハッキング行動について、93.7%の削減を達成しました。これらの改善が統計的に有意であり、最大30%の監督ノイズ下でも頑健であることを示しますが、制約なしのベースラインと比較すると観測されたピーク報酬にはトレードオフがあります。 不確実性を報酬信号の第一級の構成要素として扱うことで、本研究は、より信頼性が高く整合した強化学習システムに向けた原理的なアプローチを提供します。