概要: 複数コンポーネントからなる自然言語処理(NLP)パイプラインは、高リスクな意思決定のためにますます導入されているものの、現実的な条件下でその頑健性を検証できる既存の敵対的手法はありません。具体的には、バイナリのみのフィードバック、勾配へのアクセス不可、そして厳格な問い合わせ(クエリ)予算という条件です。私たちはこの厳格なブラックボックス脅威モデルを形式化し、意味的摂動空間上で動作する2者エージェントによる回避(エバージョン)フレームワークを提案します。攻撃者エージェントは意味を保持した書き換えを生成し、プロンプト最適化エージェントは、10回の問い合わせ予算の範囲内でバイナリの意思決定フィードバックのみを用いて攻撃戦略を洗練させます。4つのエビデンスに基づく誤情報検出パイプラインに対して評価したところ、このフレームワークは、現代の大規模言語モデル(LLM)ベースのシステムにおいて、トークンレベルの摂動ベースラインでは最大3.90%であるのに対し、回避率は19.95%から40.34%を達成しました。これは、トークンレベルのベースラインが代理モデル(サロゲートモデル)に依存しており、私たちの脅威モデルの下では動作できないためです。静的な語彙検索に依拠するレガシーシステムは、脆弱性がほぼ全面的で97.02%に達し、建築上の選択が攻撃対象領域(attack surface)をどのように左右するかを示す下限を与えています。回避の有効性は、3つのアーキテクチャ特性に関連付けられます。すなわち、証拠(エビデンス)検索メカニズム、検索と推論の結合、そしてベースライン分類精度です。反復的なプロンプト最適化は、最も頑健なターゲットに対して最大の限界改善(marginal gains)をもたらし、回避が容易でない場合には適応的な戦略発見が不可欠であることを裏付けます。成功した書き換えの分析からは、4つの悪用パターンが明らかになり、それぞれがパイプラインの異なる段階における失敗を狙っています。パターンに基づく防御は、回避率を最大65.18%低減します。
エージェント型の対向的リライトが、ブラックボックスNLPパイプラインのアーキテクチャ上の脆弱性を露呈
arXiv cs.AI / 2026/4/28
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、バイナリのみのフィードバック、勾配へのアクセスなし、厳しいクエリ予算という前提で、多コンポーネントのNLPパイプラインに対する厳格なブラックボックス脅威モデルを提示しています。
- Attacker Agentが意味を保ったまま書き換えを生成し、Prompt Optimization Agentがバイナリ判定のみを使って攻撃戦略を10クエリ以内で最適化する、2者エージェントによる「意味的摂動」ベースの回避フレームワークを提案しています。
- 4つの誤情報検出パイプラインで評価した結果、現代のLLMベースのシステムに対して19.95%〜40.34%という高い回避率が観測され、同条件下でトークンレベルの摂動ベースラインより大きく上回りました。
- 攻撃の成否は、証拠抽出メカニズム、抽出と推論の結合のされ方、ベースライン分類器の精度といったアーキテクチャ特性と強く関連していることを示しています。
- 成功した書き換えに見られる4つの悪用パターンを段階別に特定し、これらのパターンに基づく防御により回避成功率を最大65.18%低減できることを示しています。