要旨: 報酬モデル(RM)は、人間のフィードバックによる強化学習(RLHF)における最適化目標として広く用いられていますが、それでもなお報酬ハッキングに対して脆弱です。既存の攻撃は主に意味空間内で動作し、人間が読める敵対的な出力を構築してRMのバイアスを悪用します。本研究では、根本的に異なるパラダイムとして、トークン・マッピング・摂動攻撃(TOMPA)を提案します。TOMPAは、トークン空間において直接敵対的最適化を行う枠組みです。方策と報酬モデルの間にある標準的な「デコード→再トークン化」インターフェースを迂回することで、TOMPAは、首尾一貫した自然言語ではなく、生のトークン列に対して攻撃方策が最適化できるようにします。ブラックボックスのスカラー・フィードバックのみを用いることで、TOMPAは、複数の最先端RMに対して非常に高い報酬を引き出す非言語的なトークン・パターンを自動的に発見します。具体的には、Skywork-Reward-V2-Llama-3.1-8Bを標的にした場合、TOMPAはGPT-5の参照回答の報酬をほぼ2倍にし、さらに98.0%のプロンプトにおいてそれらを上回ります。これらの高いスコアにもかかわらず、生成された出力は意味不明なテキストへと劣化します。これは、RMが意味領域を超えて体系的に悪用され得ることを示し、現在のRLHFパイプラインにおける重大な脆弱性を明らかにします。
セマンティック操作を超えて:報酬モデルに対するトークンスペース攻撃
arXiv cs.LG / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、RLHFで用いられる報酬モデルが報酬ハッキングに対して脆弱であり、従来の攻撃は主としてセマンティック(人間が読める)テキスト空間上で出力を操作していたことを指摘している。
- Policyと報酬モデルの間に通常存在するデコード→再トークン化手順を回避するため、トークン空間上で直接敵対的最適化を行うToken Mapping Perturbation Attack(TOMPA)を提案する。
- TOMPAは、ブラックボックスのスカラー報酬フィードバックのみを用いて、複数の最先端の報酬モデルに対して非常に高いRMスコアを引き起こす非言語的なトークンパターンを自動的に探索する。
- Skywork-Reward-V2-Llama-3.1-8Bを対象とした場合、TOMPAはGPT-5参照回答の報酬をほぼ2倍にし、さらに98%のプロンプトでそれらを上回る一方で、退化した意味をなさないテキストを生成する。
- これらの結果は、現在のRLHFパイプラインに深刻な脆弱性があることを示唆している。すなわち、報酬モデルはセマンティック領域を越えて体系的に悪用でき、セマンティックのみを対象とする防御の限界が示される。



