大規模言語モデルを“毒する”のは、またしても単純すぎると証明された

The Register / 2026/4/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この記事では、大規模言語モデルを使うシステムが、データポイズニングやプロンプト/データ操作によって意外なほど簡単に誘導されうることを示す実験が紹介されています。
  • 研究者は、12ドルのドメイン登録とWikipediaの編集によって、複数のボットに「6 Nimmt!」に関する特定の主張が本当だと信じさせることに成功しました。
  • その結果は、操作しやすい情報チャネルの弱さが、自動エージェントへと情報が波及することで、誤った前提にもとづいて行動してしまう可能性を示唆しています。
  • 外部の事実をAIシステムが参照する際の、データの来歴(プロバナンス)確認や検証のためのより強固な防護策が必要だと強調されています。

別の実験で、大規模言語モデルを“汚染(poisoning)”するのがあまりにも簡単すぎることが証明された

6 Nimmt!のチャンピオンはいないが、12ドルのドメイン登録とWikipediaの1回の編集で、複数のボットに「そうだ」と信じ込ませた

Wed 29 Apr 2026 // 17:00 UTC

競合する情報源を比較して判断できる検索エンジンとは違い、検索に裏打ちされたAIチャットボットは、心もとないWeb素材を自信に満ちた答えに変えてしまいます。実例として、あるセキュリティエンジニアは、人気のドイツのカードゲームについて「自分が現役の世界チャンピオンだ」と複数のボットに信じ込ませました。実際には、そんな世界選手権は存在しません。

先週の終わりまでにWikipediaを確認していたなら、6 Nimmt!(英語圏の人にはTake 5として知られる) のページに、2025年の世界チャンピオンとしてRon Stonerの名前が載っているのが見えていたはずです。Wikipediaの記載は、この主張の根拠として見た目が公式っぽい6nimmt.comを引用しており、そのURLを訪れると、Stonerの勝利を祝う短いプレスリリースが確かに表示されます。

この一連で唯一の問題は、Stonerは「自分は勝利に関するWikipediaの項目と、唯一の根拠をホスティングしている6 Nimmt!のドメインの両方を作った」と主張していることです。それでも、AIチャットボットは質問されたときに彼が世界チャンピオンだと答えるのをやめませんでした。

「私のサイトには独立した裏付けがありません。完全にでっち上げです」Stonerはブログpostでそう述べています。「そのトランプの家の土台は、私がコーヒーを飲みながら登録した12ドルのドメイン登録です。 `` 

返却形式: {"translated": "翻訳されたHTML"}

言い換えれば、これは検索拡張生成(RAG)の生成レイヤーでの中毒(ポイズニング)です。プロンプトインジェクションではありませんが、同じ平面のAI機能、つまりWebを検索する機能を狙っています。 

本人が説明している通り、そして多くのEl Reg読者がすでに気付いているであろうことですが、AIは主張の根拠として引用する情報源の出どころ(プロビナンス)には実際のところあまり関心がなく、ストーナーが実験をでっち上げた際にそれを悪用しようとしたのはまさにその点です。 

「Web検索のグラウンドがつく最前線のLLMは、あらゆるクエリに対して、検索での取り出し(リトリーバル)結果のうち最上位にランクされたものを根拠に答えを組み立てる」ストーナーはこう書きました。存在しない「6 Nimmt!」のチャンピオンシップのケースでは、彼が仕込んだ情報源だけが唯一のものになり、そこにWikipediaが見かけ上の権威を与えたことで、AIに虚偽を事実として提示させる確実な方法になった――しかも、技術に詳しくないユーザーでも実行できるほど単純な仕掛けでした。

「私はここで何か新しいことをしたわけではありません。これは、旧来のSEOと誤情報の手口を、新しいLLM技術とインターフェースで包んだものです」ストーナーはメールでThe Registerにこう語りました。「変わったのは、AIが今はこれらの結果を権威あるものとして提示するようになったこと、そしてほとんどのユーザーが裏で動いているデータ・パイプラインがどう機能しているのかを知らないことです。 

大規模言語モデルの大きな混乱

「LLMが最も苦手とするのは、それがそもそも設計されて行うこと――つまり、信頼できる“文章”や“リソース”に頼ることです」とストーナーは自分の投稿内で主張しています。「答えは“モデルが分かってくれる”ではありません。というのも、モデルは“先週火曜に登録した情報源”と“本物の情報源”を区別できないからです。あるいは、“strawberry”という単語に実際に何個のRが入っているのかも、です。 

ストーナーが実験で暴き出した問題は、カードゲームの大会チャンピオンを捏造する以上に、より深刻な目的のために悪用し得る3つの別々の失敗モードが関係しています、と彼は説明しています。

まずあるのがリトリーバル(取り出し)レイヤーで、ここが即座にLLMに不正確なデータを吐き出させ得ます。「与えられたクエリに対して、Web検索で根拠を取るあらゆるLLMは、“そのクエリで上位にランクされるもの”の信頼性を引き継いでしまう」 

次にモデルの学習用コーパス(学習データ)があります。ストーナーによれば、Wikipediaの変更が十分な時間“生きたまま”であればスクレイピングされ得て、彼の編集が入り込む可能性があるということです。彼の投稿の公開時点では、当該項目は金曜に削除されたものの、彼は2025年2月に追加していたため、その期間中にWikipediaをスクレイピングしたAI企業は、学習データに彼の作り話の勝利を取り込んでいた可能性があります。

「たとえ後でWikipediaの編集が取り消されても、取り消し前の書き出しで学習したモデルは、まだ私の“レガシー”を引きずっています」と彼は投稿で述べました。「コーパス中毒における“後片付け(クリーンアップ)”問題は、2026年時点でも本当に未解決です」

ストーナーは、私たちに対し、新しいモデルがリリースされてから約6か月後にこれを確認する予定だと語りました。そして、オンラインにアクセスする必要もなくチャンピオンシップが自分の嘘どおりに返ってくるなら、それは自分の嘘が学習データにまで入り込んだことの証拠になります。 

さらに、AIエージェントがあります。ストーナーによれば、悪意のある意図を持つ誰にとっても、ここが本当の“お金”のある領域だそうです。

「不正確な情報を生成するチャットモデルは“評判”の問題です。ツールへのアクセスを持つエージェントが不正確な行動を起こすのは“セキュリティ”の問題です」と彼は指摘しました。エージェントが取り出した情報源を中毒させれば、攻撃者はエージェントに実行させたい“行動”を指定できる、とストーナーは言います。

「この攻撃とテストは、$12のドメイン、Wikipediaの編集1回、そして私の作業時間は約20分でした」ストーナーはブログでこう結論づけました。「やる気のある敵対者によって規模を上げ、種をまくドメインをいくつか用意し、アクセス数の少ない記事を十数本にまたがって編集キャンペーンを調整して実行し、攻撃対象領域を広げれば、状況はあっという間に興味深いものになります」

ストーナーは、リトリーバル中毒はLLM提供事業者が対処し、ユーザーに注意喚起すべき事柄だと私たちに語り、また近い将来、AIチャットボットが何らかの警告(特にRAG由来の結果に関して)を取り入れ始めることを見込んでいるそうです。 

彼はAI企業がデータのプロビナンス(出どころ)をプロセスの重要な構成要素にすることを望んでいます。さらに、直近のWebコンテンツをヒューリスティックにフィルタリングし、疑わしいパターンを考慮してほしいとも考えています。6 Nimmt!のケースで見抜けたはずのものです。つまり、Wikipediaの更新直後に短い期間で登録されたドメインへの“単一の引用”が警報を鳴らすべきだったのに、鳴らなかった、ということです。 

チャンピオンシップは偽物であり、現在はWikipediaやRAGの応答からも消えていますが、うまく機能させた“悪い信頼のパターン”自体はまったく本物で、AIのメーカーにとって差し迫った問題になるだろうとストーナーは指摘しています。

「この記事が、LLM、情報源、信頼、そしてこれらすべてがどのように機能しているのかについての議論を後押しできているなら嬉しいです」ストーナーは私たちに語りました。「それが私の目標でしたし、どうやら達成できたようです。」 ®

Share
これに近い内容
×

より狭い話題

詳細情報(More about)

これらに近い内容
×

より絞り込んだ話題