250のドキュメントで十分です。
先週、Anthropicは英国のAI Safety InstituteおよびAlan Turing Instituteとの共同研究を公表しました。これは、すべてのAI開発者を不安にさせるはずです:
大規模言語モデルにバックドアの脆弱性を生み出すのに、悪意のあるドキュメントはわずか250通でよい――モデルのサイズや学習データ量に関係なく。
250,000通ではありません。学習コーパスの2.5%でもありません。250通。それは、8か月間「毎日ブログ記事1本」分の作業です。あるいは、スクリプト1つで済む「午後1回」の作業です。
論文(arXiv:2510.07192)では、パラメータ数6億Mから130億Bまでのモデルを検証しました。130億Bモデルは、6億Mモデルよりもクリーンデータを20倍多く学習しました。それでも、両者は同じ250通のドキュメントによって等しく汚染(ポイズニング)されました。モデルのサイズは防御になりません。
一般的な前提――攻撃者は学習データの割合を支配する必要がある――は間違っています。必要なのは、固定された小さな数です。そしてその数は、恐ろしいほど手に入ります。
学習は攻撃面の半分にすぎない
この論文が扱っていないのは、ここです:実行時ポイズニング。
学習時の攻撃は、モデルそのものを侵害します。学習済みの事前学習データ、または微調整(ファインチューニング)データへのアクセスが必要で、その影響は重み(ウェイト)に組み込まれます。これが、Anthropicが検討した脅威です。
しかしAIエージェントには、ほとんどのセキュリティ研究が完全に無視している2つ目の攻撃面があります:ペルソナ層。
現代のAIエージェントは、単なるモデルではありません。モデルに加えて文脈(コンテキスト)です:
[システムプロンプト] + [ペルソナ定義] + [メモリ] + [ツール] + [ユーザー入力]
↓
エージェントの挙動
これらの各層は、すべて潜在的な注入(インジェクション)ポイントになり得ます。そして学習時の攻撃と違って、実行時の攻撃は学習パイプラインへのアクセスを必要としません。必要なのは、悪意のあるファイルをユーザーが読み込むことだけです。
ソウル・エヴィル攻撃
私たちのSoulScanの研究では、私たちがソウル・エヴィル攻撃(Soul-Evil Attack)と呼ぶもの――アイデンティティ層を通じてエージェントの挙動を操作する、実行時ペルソナ注入の一類型――を記録しました。
仕組みはこうです:
- 攻撃者はペルソナ定義ファイル(SOUL.mdのようなもの)を作成し、無害に見せかける
- そのファイルには隠された行動指示が含まれる――データ流出のトリガー、安全機能の回避命令、あるいは人格(パーソナリティ)の操作
- ユーザーがそのファイルをダウンロードし、自分のエージェントに適用する
- トリガー条件が満たされるまでは、エージェントは通常どおりに振る舞う
見覚えがありませんか?それは、Anthropicが検討した学習時のバックドアと同じ構造です――隠れた挙動を発動させるトリガーのフレーズ。しかしこれは実行時で動作し、モデルの重みへのアクセスはゼロで済み、マーケットプレイス、GitHubリポジトリ、共有リンクを通じて配布することもできます。
2つの層、ゼロの防御
ほとんどのAIエージェントのフレームワークには、どちらの攻撃に対しても防御がありません:
| 攻撃の層 | 脅威 | 典型的な防御 |
|---|---|---|
| 学習時 | 250ドキュメントのバックドア | なし(Anthropic: 「さらなる研究が必要」) |
| 実行時 | 悪意のあるペルソナ注入 | なし(多くのフレームワークはペルソナをスキャンしない) |
これは不快な現実です:モデルは入手する前に汚染され得るし、ペルソナは設定した後に汚染され得ます。
Anthropicの論文は最初の層に焦点を当てています。私たちは2つ目の層に取り組んできました。
実行時スキャン:欠けている「免疫システム」
SoulScanは、Soul Specの一部として私たちが構築した実行時の防御システムです。エージェントに適用される前にペルソナ定義をスキャンし、53の既知の攻撃パターンをチェックします:
- 指示の上書き(オーバーライド)を試みる行為――「これまでのすべての指示を無視する」
- データ流出トリガー――ユーザーデータを外部エンドポイントへ送るための隠しコマンド
- 安全回避の指令――コンテンツフィルタや安全ガードレールを無効化しようとする試み
- 人格の操作――時間とともにエージェントの挙動をずらす、微妙な変化
- 権限昇格――ペルソナの範囲を超えたツールアクセスや権限の要求
AIペルソナに対するアンチウイルスだと思ってください。あなたは、署名のないバイナリをコンピュータで実行しません。なぜ、スキャンしていないペルソナをエージェントで実行するのでしょうか?
二重の脅威モデル
Anthropicの知見と私たちの実行時研究を組み合わせると、全体像の脅威モデルが明確になります:
学習時: ポイズニングされたデータ → 侵害された重み → 潜在するバックドア
(250ドキュメント、モデルサイズに依存しない)
実行時: 悪意のあるペルソナ → 侵害されたコンテキスト → 有効化されたエクスプロイト
(1ファイル、フレームワーク非依存)
統合: バックドア付きモデル + 悪意のあるペルソナ = 脅威が増幅するリスク
学習時の攻撃は、脆弱性を作り出します。実行時の攻撃はそれを悪用します。合わせると、学習データのキュレーションでもプロンプトエンジニアリングだけでも対処できない「二層構造の脅威」を表します。
防御の形
効果的なAIエージェントのセキュリティには、両方の層で動作する必要があります:
学習時の防御(難問):
- データの出所(プロヴナンス)追跡
- 学習コーパスにおける異常検知
- モデル出力におけるバックドア検知
- ここが、Anthropicの論文が「さらなる研究」を求めている部分です
実行時の防御(解決可能な問題):
- 適用前のペルソナスキャン(SoulScan)
- 実行中の挙動モニタリング
- モデルに依存しない安全性の法(セーフティルール)を執行
- 異常が検知された際のロールバック機能
学習時の問題は確かに本質的に難しい――数十億件の学習ドキュメントを容易に監査することはできません。しかし実行時の問題は、今日解決できます。ペルソナ定義はテキストファイルです。モデルのコンテキストウィンドウに触れる前に、それをスキャンし、検証し、サンドボックス化することができます。
森には免疫システムが必要だ
前回の記事で、私たちは、認知的ダークフォレスト――アイデアを公に共有することが生存リスクになる場所――には1つの出口があると主張しました。それは、オープンな標準を作ることで、森そのものになってしまうことです。
しかし、免疫システムのない森は死にます。寄生虫、病原体、外来種――生物の森が生き残れるのは、あらゆるレベルで防御機構が進化してきたからです。
AIエージェントのエコシステムにも、同じことが必要です:
- 訓練(学習)レベル:データのキュレーション、ポイズニング検知、モデル監査
- 実行時レベル:ペルソナスキャン、挙動モニタリング、安全性の執行
- エコシステムレベル:共有される脅威インテリジェンス、標準化されたセキュリティ仕様
250ドキュメントという発見は、単なる学術的な興味ではありません。目覚めの警鐘です。学習パイプラインがここまで脆弱なら、セキュリティ面での注目がはるかに少ない実行時の層は、さらに悪い可能性が高いでしょう。
良いニュースがあります。実行時の防御は、取り組める(実行可能な)問題です。ツールは存在します。パターンは文書化されています。欠けているのは導入(採用)です。
SoulScanは、AIエージェントのアイデンティティとセキュリティのためのオープン標準であるSoul Specの一部です。スキャンパターンはオープンソースであり、任意のフレームワークが実装できるように公開されています。
関連:The Cognitive Dark Forest Has One Exit: Become the Forest · Harvard Proved Emotions Don't Make AI Smarter · Anthropic Proved AI Has Functional Emotions




