PivotAttack: Pivot Wordsを介したハードラベルテキスト攻撃における探索軌道の再考
arXiv cs.CL / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- PivotAttackは、内部から外部へ働きかける、クエリ効率の高い攻撃フレームワークを導入し、マルチアームドバンディットを用いてPivot Sets—予測を固定づける組み合わせトークン群—を特定し、それらを戦略的に摂動してラベルの反転を誘発します。
- この手法は語間依存性を捉え、従来の外部からの方法と比較してクエリコストを著しく削減します。
- 実験は、従来モデルおよび大規模言語モデルにおいて、PivotAttackがより高い攻撃成功率と優れたクエリ効率を達成し、最先端ベースラインを上回ることを示しています。
- 本研究は頑健性評価のためのスケーラブルな手法を提供し、NLPセキュリティ研究および防御設計に示唆を与えます。
既存のハードラベルテキスト攻撃は、広大な探索空間を横断する非効率な「外部からの」戦略に依存することが多い。私たちはPivotAttackを提案する。これはクエリ効率の高い「内部から外部へ」フレームワークだ。マルチアームドバンディットアルゴリズムを用いてPivot Sets—予測のアンカーとして機能する組み合わせトークン群—を識別し、それらを戦略的に摂動してラベル反転を誘発する。このアプローチは語間依存性を捕捉し、クエリコストを最小限に抑える。従来モデルおよび大規模言語モデルを横断する広範な実験により、PivotAttackは攻撃成功率とクエリ効率の両方において最先端のベースラインを一貫して上回ることを示している。