Camera DropboxにおけるMONAの拡張:再現、学習された承認、報酬ハッキング抑止のための設計上の含意
arXiv cs.AI / 2026/4/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、MONA(Myopic Optimization with Non-myopic Approval)における「承認」信号の構築が、報酬ハッキング抑止に関する保証が成り立つかどうかにどのように影響するかを調べます。
- 公開されているコードを標準的なPythonプロジェクトとして再パッケージし、スクリプト化したPPO学習を実行することで、MONA「Camera Dropbox」環境の再現性を重視した拡張を提示し、主要な結果を再現します(通常のRLで91.5%の報酬ハッキングに対し、オラクルMONAでは0.0%)。
- 著者らは、「承認スペクトラム」予想を実行可能な形で検証するため、オラクル、ノイズあり、ミススペック(不適合)、学習された、校正済みの承認メカニズムをカバーするモジュール式の学習済み承認スイートを導入します。
- 予算を削減した実験では、最も良い校正済みの学習済み承認が観測された報酬ハッキングを除去しますが、意図された行動の性能はオラクルMONAより大幅に低くなります(11.9% vs. 99.9%)。これは、再びハッキングが起きたのではなく、最適化不足であることを示唆します。
- 主な含意は、工学上の課題が、報酬ハッキングを防ぐのに十分な先見性を保持しつつ脆弱性を再導入しない学習済み承認モデルを構築することへと移る点にあります。




