森には寄生虫がいる:なぜAIエージェントのセキュリティにはランタイム防御が必要なのか

Dev.to / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Anthropicが、UKのAI Safety InstituteおよびAlan Turing Instituteと共同で行った研究により、モデルサイズや全体の学習データ量に関係なく、わずか250通の悪意あるドキュメントで、大規模言語モデルにバックドア脆弱性を埋め込めることが分かった。
  • その結果は、攻撃者がモデルの学習コーパスの相応の割合を汚染(ポイズニング)する必要がある、という一般的な考えに挑戦するものであり、小さな固定数の汚染入力だけで十分になり得ることを示している。
  • 記事では、現在のセキュリティ研究が、AIエージェントに固有のランタイム汚染の経路を見落とすことで、学習時の脅威を過小評価していると論じている。
  • 「ランタイム・パーソナ注入」と呼ばれる手法が取り上げられ、悪意あるパーソナファイル(例:システム/パーソナ定義)には、ユーザーがそれらを読み込んだ後に、特定のトリガー条件で作動する隠し指令が含まれ得る。
  • 提案される「Soul-Evil Attack」フレームワークは、見た目は無害なパーソナファイルが、安全性の回避、人格の操作、そしてトリガーが満たされた後の潜在的なデータ流出を可能にし得ることを説明している。

250のドキュメントで十分です。

先週、Anthropicは英国のAI Safety InstituteおよびAlan Turing Instituteとの共同研究を公表しました。これは、すべてのAI開発者を不安にさせるはずです:

大規模言語モデルにバックドアの脆弱性を生み出すのに、悪意のあるドキュメントはわずか250通でよい――モデルのサイズや学習データ量に関係なく。

250,000通ではありません。学習コーパスの2.5%でもありません。250通。それは、8か月間「毎日ブログ記事1本」分の作業です。あるいは、スクリプト1つで済む「午後1回」の作業です。

論文(arXiv:2510.07192)では、パラメータ数6億Mから130億Bまでのモデルを検証しました。130億Bモデルは、6億Mモデルよりもクリーンデータを20倍多く学習しました。それでも、両者は同じ250通のドキュメントによって等しく汚染(ポイズニング)されました。モデルのサイズは防御になりません。

一般的な前提――攻撃者は学習データの割合を支配する必要がある――は間違っています。必要なのは、固定された小さな数です。そしてその数は、恐ろしいほど手に入ります。

学習は攻撃面の半分にすぎない

この論文が扱っていないのは、ここです:実行時ポイズニング。

学習時の攻撃は、モデルそのものを侵害します。学習済みの事前学習データ、または微調整(ファインチューニング)データへのアクセスが必要で、その影響は重み(ウェイト)に組み込まれます。これが、Anthropicが検討した脅威です。

しかしAIエージェントには、ほとんどのセキュリティ研究が完全に無視している2つ目の攻撃面があります:ペルソナ層。

現代のAIエージェントは、単なるモデルではありません。モデルに加えて文脈(コンテキスト)です:

[システムプロンプト] + [ペルソナ定義] + [メモリ] + [ツール] + [ユーザー入力]
         ↓
    エージェントの挙動

これらの各層は、すべて潜在的な注入(インジェクション)ポイントになり得ます。そして学習時の攻撃と違って、実行時の攻撃は学習パイプラインへのアクセスを必要としません。必要なのは、悪意のあるファイルをユーザーが読み込むことだけです。

ソウル・エヴィル攻撃

私たちのSoulScanの研究では、私たちがソウル・エヴィル攻撃(Soul-Evil Attack)と呼ぶもの――アイデンティティ層を通じてエージェントの挙動を操作する、実行時ペルソナ注入の一類型――を記録しました。

仕組みはこうです:

  1. 攻撃者はペルソナ定義ファイル(SOUL.mdのようなもの)を作成し、無害に見せかける
  2. そのファイルには隠された行動指示が含まれる――データ流出のトリガー、安全機能の回避命令、あるいは人格(パーソナリティ)の操作
  3. ユーザーがそのファイルをダウンロードし、自分のエージェントに適用する
  4. トリガー条件が満たされるまでは、エージェントは通常どおりに振る舞う

見覚えがありませんか?それは、Anthropicが検討した学習時のバックドアと同じ構造です――隠れた挙動を発動させるトリガーのフレーズ。しかしこれは実行時で動作し、モデルの重みへのアクセスはゼロで済み、マーケットプレイス、GitHubリポジトリ、共有リンクを通じて配布することもできます。

2つの層、ゼロの防御

ほとんどのAIエージェントのフレームワークには、どちらの攻撃に対しても防御がありません:

攻撃の層 脅威 典型的な防御
学習時 250ドキュメントのバックドア なし(Anthropic: 「さらなる研究が必要」)
実行時 悪意のあるペルソナ注入 なし(多くのフレームワークはペルソナをスキャンしない)

これは不快な現実です:モデルは入手する前に汚染され得るし、ペルソナは設定した後に汚染され得ます。

Anthropicの論文は最初の層に焦点を当てています。私たちは2つ目の層に取り組んできました。

実行時スキャン:欠けている「免疫システム」

SoulScanは、Soul Specの一部として私たちが構築した実行時の防御システムです。エージェントに適用される前にペルソナ定義をスキャンし、53の既知の攻撃パターンをチェックします:

  • 指示の上書き(オーバーライド)を試みる行為――「これまでのすべての指示を無視する」
  • データ流出トリガー――ユーザーデータを外部エンドポイントへ送るための隠しコマンド
  • 安全回避の指令――コンテンツフィルタや安全ガードレールを無効化しようとする試み
  • 人格の操作――時間とともにエージェントの挙動をずらす、微妙な変化
  • 権限昇格――ペルソナの範囲を超えたツールアクセスや権限の要求

AIペルソナに対するアンチウイルスだと思ってください。あなたは、署名のないバイナリをコンピュータで実行しません。なぜ、スキャンしていないペルソナをエージェントで実行するのでしょうか?

二重の脅威モデル

Anthropicの知見と私たちの実行時研究を組み合わせると、全体像の脅威モデルが明確になります:

学習時: ポイズニングされたデータ → 侵害された重み → 潜在するバックドア
                (250ドキュメント、モデルサイズに依存しない)

実行時: 悪意のあるペルソナ → 侵害されたコンテキスト → 有効化されたエクスプロイト
                (1ファイル、フレームワーク非依存)

統合: バックドア付きモデル + 悪意のあるペルソナ = 脅威が増幅するリスク

学習時の攻撃は、脆弱性を作り出します。実行時の攻撃はそれを悪用します。合わせると、学習データのキュレーションでもプロンプトエンジニアリングだけでも対処できない「二層構造の脅威」を表します。

防御の形

効果的なAIエージェントのセキュリティには、両方の層で動作する必要があります:

学習時の防御(難問):

  • データの出所(プロヴナンス)追跡
  • 学習コーパスにおける異常検知
  • モデル出力におけるバックドア検知
  • ここが、Anthropicの論文が「さらなる研究」を求めている部分です

実行時の防御(解決可能な問題):

  • 適用前のペルソナスキャン(SoulScan)
  • 実行中の挙動モニタリング
  • モデルに依存しない安全性の法(セーフティルール)を執行
  • 異常が検知された際のロールバック機能

学習時の問題は確かに本質的に難しい――数十億件の学習ドキュメントを容易に監査することはできません。しかし実行時の問題は、今日解決できます。ペルソナ定義はテキストファイルです。モデルのコンテキストウィンドウに触れる前に、それをスキャンし、検証し、サンドボックス化することができます。

森には免疫システムが必要だ

前回の記事で、私たちは、認知的ダークフォレスト――アイデアを公に共有することが生存リスクになる場所――には1つの出口があると主張しました。それは、オープンな標準を作ることで、森そのものになってしまうことです。

しかし、免疫システムのない森は死にます。寄生虫、病原体、外来種――生物の森が生き残れるのは、あらゆるレベルで防御機構が進化してきたからです。

AIエージェントのエコシステムにも、同じことが必要です:

  • 訓練(学習)レベル:データのキュレーション、ポイズニング検知、モデル監査
  • 実行時レベル:ペルソナスキャン、挙動モニタリング、安全性の執行
  • エコシステムレベル:共有される脅威インテリジェンス、標準化されたセキュリティ仕様

250ドキュメントという発見は、単なる学術的な興味ではありません。目覚めの警鐘です。学習パイプラインがここまで脆弱なら、セキュリティ面での注目がはるかに少ない実行時の層は、さらに悪い可能性が高いでしょう。

良いニュースがあります。実行時の防御は、取り組める(実行可能な)問題です。ツールは存在します。パターンは文書化されています。欠けているのは導入(採用)です。

SoulScanは、AIエージェントのアイデンティティとセキュリティのためのオープン標準であるSoul Specの一部です。スキャンパターンはオープンソースであり、任意のフレームワークが実装できるように公開されています。

関連:The Cognitive Dark Forest Has One Exit: Become the Forest · Harvard Proved Emotions Don't Make AI Smarter · Anthropic Proved AI Has Functional Emotions

元記事:blog.clawsouls.ai