報酬をいつ毒することができるのか？線形MDPにおける報酬汚染の厳密な特性づけ

arXiv cs.LG / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は強化学習における「報酬汚染（reward poisoning）」を分析する。そこでは、攻撃者が限られた予算のもとで報酬を改変し、エージェントを攻撃者が選んだ行動へ誘導する。
線形MDPにおいて報酬汚染が攻撃可能となる条件について、初めての「必要十分条件」による厳密な特徴づけを提示し、脆弱なインスタンスと本質的に頑健なインスタンスを切り分ける。
著者らは、「明確な境界（bright line）」を確立する。これは、たとえエージェントが標準的（頑健でない）強化学習アルゴリズムを用いるとしても、過大な攻撃コストなしには効果的に標的化できない強化学習の設定を示す。
線形MDPを超えて、本研究は深層強化学習環境を線形MDPとして近似することにより、枠組みの一般性が高まり、実際に脆弱性の判別と、脆弱な環境への効率的な攻撃の両方を可能にすると主張する。

要旨: 強化学習（RL）における報酬汚染攻撃を研究します。この攻撃では、攻撃者が制約された予算の範囲内で報酬を操作し、標的となるRLエージェントに、攻撃者の目的に整合する方針を採用させます。報酬汚染に関する既存研究は主に、成功する攻撃者を設計するための十分条件に焦点を当ててきましたが、標的型攻撃が不可能であること（不可能性）について論じた研究はわずかしかありません。本論文は、報酬汚染攻撃における線形MDPの「攻撃可能性」について、最初の厳密な必要十分条件の特徴付けを提示します。我々の特徴付けは、攻撃され得るRLインスタンスと、固有に頑健であり、大きなコストを払わずには、通常の非頑健RLアルゴリズムを実行することさえできないものとの間に、明確な境界線を引きます。我々の理論は線形MDPを超えて拡張されます――深層RL環境を線形MDPとして近似することで、我々の理論的枠組みが攻撃可能性を効果的に識別し、攻撃可能なものを効率よく攻撃できることを示します。これにより、我々の特徴付けの理論的・実践的な重要性の両方が実証されます。