AI Navigate

RTD-Guard: 置換トークン検出によるブラックボックス型テキスト敵対的検出フレームワーク

arXiv cs.CL / 2026/3/16

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • RTD-Guard は、事前学習済みの Replaced Token Detection(RTD)識別器を活用して、微調整を行わずにテキストの敵対的例を検出するブラックボックス型フレームワークである。
  • 疑わしいトークンを局在化し、それらをマスクしたうえで、介入前後の被害者モデルの予測信頼度の変化を観察して敵対的例を検出します。ブラックボックスの問い合わせはわずか2回のみです。
  • 本手法は敵対データ、モデルのチューニング、内部モデルへのアクセスを一切必要とせず、プライバシーに敏感な環境やリソース制約のある環境での展開を実用的にします。
  • 複数のベンチマークデータセットを対象とした網羅的な実験により、RTD-Guard は複数の指標で既存の検出ベースラインを上回り、その効率性と実用性を示しています。

要旨: テキストの敵対的攻撃は、深層学習モデルを誤導する知覚できない摂動を導入することにより、自然言語処理(NLP)システムに深刻なセキュリティ上の脅威をもたらします。敵対的な例の検出は堅牢な訓練に対する軽量な代替手段を提供しますが、既存の手法は通常、攻撃に関する事前知識、被害モデルへのホワイトボックスアクセス、または多数のクエリに依存しており、それが実用的な展開を著しく制限します。本論文は、テキストの敵対的例を検出する新規のブラックボックスフレームワークである RTD-Guard を紹介します。我々の核心的な洞察は、敵対的攻撃における語の置換摂動が、Replaced Token Detection(RTD)ディスクリミネータが識別するように事前学習されている「置換されたトークン」と密接に類似しているという点です。これを活用して、RTD-Guard は既製の RTD ディスクリミネータをファインチューニングなしで用い、疑わしいトークンを局在化してマスクし、介入前後の被害モデルの予測信頼度の変化を観察することにより、敵対的な例を検出します。この全プロセスは敵対データ、モデルのチューニング、内部モデルへのアクセスを一切必要とせず、ブラックボックスクエリをわずか2回のみ使用します。複数のベンチマークデータセットを対象とした包括的な実験により、RTD-Guard が多様な最先端の攻撃手法によって生成された敵対的テキストを効果的に検出することを示しています。それは複数の指標で既存の検出ベースラインを上回り、非常に効率的で実用的、リソースが少なくて済む防御機構を提供します。特に資源が制約された環境やプライバシーに敏感な環境での実世界展開に適しています。