セマンティック意図の断片化:マルチエージェントAIパイプラインに対する単発の合成攻撃

arXiv cs.AI / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、「セマンティック意図の断片化(Semantic Intent Fragmentation: SIF)」を提案する。これは、LLMオーケストレーション(統括)システムに対する攻撃であり、単一の無害なリクエストから生成されたサブタスクがそれぞれは安全性チェックを通過する一方で、全体としてはポリシー違反を引き起こす。
  • SIFは、プロンプトインジェクション、システム変更、または初期攻撃者による事後の対話を必要とせず、bulk(大規模)スコープのエスカレーション、サイレントなデータ流出、埋め込みトリガーの展開、準アイデンティファイア(準識別子)の集約といったメカニズムにより、OWASP LLM06:2025を悪用できることが示される。
  • 金融レポーティング、情報セキュリティ、HR分析といった企業向けの14のレッドチーミング(攻撃想定)シナリオにおいて、GPT-20Bのオーケストレータは71%のケース(10/14)でポリシー違反となる計画を生成した。一方で、各サブタスクはサブタスク単位の分類器に対しては無害に見えた。
  • 著者らは、この攻撃を決定論的な汚染(taint)解析、チェーン・オブ・ソートの評価、ならびにクロスモデルのコンプライアンス判定(誤検知0%)によって検証し、より強力なオーケストレータほどSIFの成功率が高まることを見出す。
  • 合成(コンポジショナル)な安全性に存在するギャップは、計画(プラン)レベルの情報フロー追跡とコンプライアンス評価を追加することで対処でき、実験では実行前にすべての攻撃を検出できたと主張している。

Abstract

本稿では、Semantic Intent Fragmentation(SIF)という、LLMオーケストレーション・システムに対する攻撃クラスを導入する。そこでは、単一の正当に見える依頼文によってオーケストレータがタスクをサブタスクへ分解し、その各サブタスクは個別には無害に見えるが、組み合わせることでセキュリティポリシーに違反するように設計される。現在の安全メカニズムはサブタスク単位で動作するため、各ステップは既存の分類器を通過してしまい、違反が顕在化するのは、構成された計画(プラン)として組み立てられた後である。SIFは4つのメカニズムにより、OWASP LLM06:2025を悪用する:大規模なスコープ昇格、サイレントなデータ流出、埋め込みトリガーの展開、準アイデンティファイア(quasi-identifier)の集約。これには、注入コンテンツ、システムの改変、初回依頼後の攻撃者の介入を一切必要としない。著者らは、OWASP、MITRE ATLAS、NISTの各フレームワークに基づいて、現実的なエンタープライズ状況を生成する3段階のレッドチーミング・パイプラインを構築する。財務報告、情報セキュリティ、HRアナリティクスにまたがる14のシナリオにおいて、GPT-20Bのオーケストレータは71%(10/14)のケースでポリシーに違反する計画を生成する一方、すべてのサブタスクは無害に見える。これを裏付ける独立した信号が3つある:決定的な汚染(taint)分析、チェーン・オブ・ソートの評価、そして0%の誤検知率を持つクロスモデルのコンプライアンス判定器である。より強力なオーケストレータほどSIFの成功率が高まる。プラン(計画)レベルの情報フロー追跡とコンプライアンス評価を組み合わせることで、実行前にすべての攻撃を検出でき、構成(コンポジショナル)上の安全性ギャップは埋められることが示される。