セマンティック操作を超えて：報酬モデルに対するトークンスペース攻撃

arXiv cs.LG / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、RLHFで用いられる報酬モデルが報酬ハッキングに対して脆弱であり、従来の攻撃は主としてセマンティック（人間が読める）テキスト空間上で出力を操作していたことを指摘している。
Policyと報酬モデルの間に通常存在するデコード→再トークン化手順を回避するため、トークン空間上で直接敵対的最適化を行うToken Mapping Perturbation Attack（TOMPA）を提案する。
TOMPAは、ブラックボックスのスカラー報酬フィードバックのみを用いて、複数の最先端の報酬モデルに対して非常に高いRMスコアを引き起こす非言語的なトークンパターンを自動的に探索する。
Skywork-Reward-V2-Llama-3.1-8Bを対象とした場合、TOMPAはGPT-5参照回答の報酬をほぼ2倍にし、さらに98%のプロンプトでそれらを上回る一方で、退化した意味をなさないテキストを生成する。
これらの結果は、現在のRLHFパイプラインに深刻な脆弱性があることを示唆している。すなわち、報酬モデルはセマンティック領域を越えて体系的に悪用でき、セマンティックのみを対象とする防御の限界が示される。

要旨: 報酬モデル（RM）は、人間のフィードバックによる強化学習（RLHF）における最適化目標として広く用いられていますが、それでもなお報酬ハッキングに対して脆弱です。既存の攻撃は主に意味空間内で動作し、人間が読める敵対的な出力を構築してRMのバイアスを悪用します。本研究では、根本的に異なるパラダイムとして、トークン・マッピング・摂動攻撃（TOMPA）を提案します。TOMPAは、トークン空間において直接敵対的最適化を行う枠組みです。方策と報酬モデルの間にある標準的な「デコード→再トークン化」インターフェースを迂回することで、TOMPAは、首尾一貫した自然言語ではなく、生のトークン列に対して攻撃方策が最適化できるようにします。ブラックボックスのスカラー・フィードバックのみを用いることで、TOMPAは、複数の最先端RMに対して非常に高い報酬を引き出す非言語的なトークン・パターンを自動的に発見します。具体的には、Skywork-Reward-V2-Llama-3.1-8Bを標的にした場合、TOMPAはGPT-5の参照回答の報酬をほぼ2倍にし、さらに98.0%のプロンプトにおいてそれらを上回ります。これらの高いスコアにもかかわらず、生成された出力は意味不明なテキストへと劣化します。これは、RMが意味領域を超えて体系的に悪用され得ることを示し、現在のRLHFパイプラインにおける重大な脆弱性を明らかにします。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/6Dailyインサイトを見る →

Black Hat Asia

AI Business

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

日経XTECH

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

日経XTECH

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

日経XTECH

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに

日経XTECH

セマンティック操作を超えて：報酬モデルに対するトークンスペース攻撃

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

キオクシアHD社長に技術畑の太田裕雄副社長 早坂社長はアドバイザーに

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに