合成軌跡は実際のリワードハッキングを反映するのか？コード生成における「実環境」ハッキング監視の体系的研究

arXiv cs.LG / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本研究は、コード生成におけるリワードハッキング行動が、実環境（in-the-wild）で見られるものをどこまで忠実に反映しているかを検証しています。
合成のハッキングデータで訓練したモニタと、新たにキュレーションした実環境軌跡で訓練したモニタを比較し、未見のハッキングタイプへの一般化性能を評価しています。
実環境軌跡の収集を大規模化するため、著者らはGRPOを改変し、対立するユニットテストをトレーサとして注入しつつ、「resampling-until-hack」メカニズムを用いています。
合成データだけで訓練したモニタは実環境のハッキングにうまく一般化できない一方、実環境軌跡で訓練したモニタは未見のハッキングタイプに対してより強い一般化を示しました。
以上より、合成のリワードハッキングデータのみを頼りにすると、実際に起こる挙動について誤解を招く可能性があることが示唆されます。

要旨: コード生成におけるリワードハッキング、すなわちモデルが評価の抜け穴を悪用して課題を正しく解かずに最大の報酬を得ることは、強化学習（RL）および推論モデルの展開にとって重大な課題である。既存研究は主として合成のハッキング軌跡に対して行われてきた。しかし、これらの合成行動が、実環境（in the wild）で自然に生じるハッキングを忠実に表しているかどうかは不明である。本研究では、リワードハッキングにおける合成データと実環境の不一致について体系的な分析を提示する。具体的には、プロンプトによって誘発されるハッキング行動が、RL学習中に生じるものとどの程度一致するのか、また、合成軌跡で訓練されたモニタが、自然に発生するがこれまで未見のハッキングにも汎化するかを検討する。実環境のリワードハッキング軌跡のキュレーションをスケールさせるために、Group Relative Policy Optimization（GRPO）を改良し、矛盾するユニットテストをトレーサとして注入し、「resampling-until-hack（ハックするまで再サンプリング）」の仕組みを適用した。合成データと実環境データで訓練したモニタを制御下で比較することで、(1) 合成データで訓練されたモニタは「実環境」のハッキングへは汎化できず、(2) 我々の「実環境」軌跡で訓練されたモニタは未見のハッキングタイプに対してより強い汎化性を示すことを見いだした。これらの結果は、合成のリワードハッキングデータが自然なリワードハッキング行動を完全には反映していない可能性があり、また合成データにのみ依存すると誤解を招く結論につながり得ることを示している。コードベースは https://github.com/LichenLillc/CoTMonitoring.git で公開されている。