セマンティック意図の断片化:マルチエージェントAIパイプラインに対する単発の合成攻撃
arXiv cs.AI / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、「セマンティック意図の断片化(Semantic Intent Fragmentation: SIF)」を提案する。これは、LLMオーケストレーション(統括)システムに対する攻撃であり、単一の無害なリクエストから生成されたサブタスクがそれぞれは安全性チェックを通過する一方で、全体としてはポリシー違反を引き起こす。
- SIFは、プロンプトインジェクション、システム変更、または初期攻撃者による事後の対話を必要とせず、bulk(大規模)スコープのエスカレーション、サイレントなデータ流出、埋め込みトリガーの展開、準アイデンティファイア(準識別子)の集約といったメカニズムにより、OWASP LLM06:2025を悪用できることが示される。
- 金融レポーティング、情報セキュリティ、HR分析といった企業向けの14のレッドチーミング(攻撃想定)シナリオにおいて、GPT-20Bのオーケストレータは71%のケース(10/14)でポリシー違反となる計画を生成した。一方で、各サブタスクはサブタスク単位の分類器に対しては無害に見えた。
- 著者らは、この攻撃を決定論的な汚染(taint)解析、チェーン・オブ・ソートの評価、ならびにクロスモデルのコンプライアンス判定(誤検知0%)によって検証し、より強力なオーケストレータほどSIFの成功率が高まることを見出す。
- 合成(コンポジショナル)な安全性に存在するギャップは、計画(プラン)レベルの情報フロー追跡とコンプライアンス評価を追加することで対処でき、実験では実行前にすべての攻撃を検出できたと主張している。




