広告

Camera DropboxにおけるMONAの拡張:再現、学習された承認、報酬ハッキング抑止のための設計上の含意

arXiv cs.AI / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、MONA(Myopic Optimization with Non-myopic Approval)における「承認」信号の構築が、報酬ハッキング抑止に関する保証が成り立つかどうかにどのように影響するかを調べます。
  • 公開されているコードを標準的なPythonプロジェクトとして再パッケージし、スクリプト化したPPO学習を実行することで、MONA「Camera Dropbox」環境の再現性を重視した拡張を提示し、主要な結果を再現します(通常のRLで91.5%の報酬ハッキングに対し、オラクルMONAでは0.0%)。
  • 著者らは、「承認スペクトラム」予想を実行可能な形で検証するため、オラクル、ノイズあり、ミススペック(不適合)、学習された、校正済みの承認メカニズムをカバーするモジュール式の学習済み承認スイートを導入します。
  • 予算を削減した実験では、最も良い校正済みの学習済み承認が観測された報酬ハッキングを除去しますが、意図された行動の性能はオラクルMONAより大幅に低くなります(11.9% vs. 99.9%)。これは、再びハッキングが起きたのではなく、最適化不足であることを示唆します。
  • 主な含意は、工学上の課題が、報酬ハッキングを防ぐのに十分な先見性を保持しつつ脆弱性を再導入しない学習済み承認モデルを構築することへと移る点にあります。

Abstract

狭視的最適化と非狭視的承認(MONA)は、エージェントの計画ホライズンを制限しつつ、遠視的な承認を学習信号として与えることで、多段階の報酬ハッキングを緩和します~\cite{farquhar2025mona}。元論文は、解決されていない重要な問いを特定しています。それは、承認の構築方法――特に、承認が達成された結果にどの程度依存するか――によって、MONAの安全性保証が成立するかどうかがどのように左右されるのか、という点です。本稿では、公的なMONA Camera Dropbox環境に対して「再現を最優先」にした拡張を提示します。これにより (i)~リリースされたコードベースを、スクリプト化されたPPO学習を備える標準的なPythonプロジェクトとして再パッケージ化し、(ii)~リリースされた参照配列を用いて、通常のRL(報酬ハッキング率91.5)とオラクルMONA(ハッキング率0.0)との間に報告されている対比を確認し、そして (iii)~オラクル、ノイズあり、ミススペシファイド(誤った仕様)、学習済み、較正済みの承認メカニズムにまたがるモジュール式の学習済み承認スイートを導入します。承認手法、ホライズン、データセットサイズ、較正戦略にわたる、低予算のパイロット・スイープでは、最もよく較正された学習済み監督(overseer)の実行が、観測された報酬ハッキングをゼロに抑えた一方で、オラクルMONAより意図された振る舞いの率が大幅に低くなりました(11.9 vs. 599.9)。これは、再びハッキングが再出現したのではなく、過小最適化(under-optimization)と整合的です。これらの結果は、MONA論文の「承認スぺクトラム(approval-spectrum)」に関する推論を、実行可能な実験対象として具体化し、中心的な工学的課題が、MONAの概念を証明することから、報酬ハッキングのチャネルを再び開くことなく十分な見通し(foresight)を保つ学習済み承認モデルを構築することへと移ることを示唆します。コード、設定、再現コマンドは公開されています。 https://github.com/codernate92/mona-camera-dropbox-repro

広告
Camera DropboxにおけるMONAの拡張:再現、学習された承認、報酬ハッキング抑止のための設計上の含意 | AI Navigate