報酬ハッキングを抑えるための不確実性を考慮した報酬ディスカウンティング
arXiv cs.AI / 2026/4/30
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- この論文は、実世界の目的が不確実で文脈依存かつ内部的に矛盾しやすい状況で、スカラー報酬を最適化することが報酬ハッキングや過度に確信した行動につながり得るという問題を扱います。
- 提案手法は、価値推定のアンサンブル不一致によるエピステミック不確実性と、報酬アノテーションのばらつきから導く嗜好(選好)の不確実性の両方を明示的にモデル化するデュアルソースの枠組みです。
- これらの不確実性シグナルを、信頼度で調整されたReliability Filterによって統合し、不確実性があるときの行動選択を適応的に変えることで、探索(用心)と搾取(活用)のバランスを取ります。
- グリッドワールド(6x6、8x8、10x10)および連続制御タスク(Hopper-v4、Walker2d-v4)での実験では、報酬の曖昧さ下での搾取的挙動が大きく減り、罠への訪問頻度で93.7%の報酬ハッキング低減が報告されています。
- ただし、改善にはトレードオフがあり、不確実性を通じた安全性のために、無制約のベースラインに比べてピークの観測報酬は下がるとされています。



