セキュリティ研究者がApple Intelligenceに呪いの言葉をユーザーに向けさせることに成功した。事態はもっと悪化し得た

The Register / 2026/4/9

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • セキュリティ研究者は、プロンプトや入力の取り扱いにおける弱点を突くことで、Apple Intelligenceが攻撃的な言語を生成するよう操作できることを実証しました。
  • この出来事は、LLMを搭載した機能が、モデルの振る舞いを誘導するプロンプトインジェクションや関連するソーシャルエンジニアリング手法に対して、依然として脆弱であり得ることを示しています。
  • 研究者によれば、出力はユーザーに向けた卑語でしたが、内在するリスクは、より有害、またはポリシー違反となる内容へとエスカレートし得たとのことです。
  • 今回の件は、LLMの統合に関するより強力な防護策の必要性を浮き彫りにしています。具体的には、厳格な入力バリデーション、プロンプトインジェクションへの防御、そしてより厳密な出力モデレーションが挙げられます。
  • 防御側にとっては、消費者向けAI機能に対するセキュリティテストを継続し、モデルからユーザーへの悪用につながる経路が広まる前に特定して塞ぐことの重要性を改めて裏づけるものです。

セキュリティ研究者がApple Intelligenceをだましてユーザーに悪態をつかせた。もっとひどいことにもなり得た

デジタルせっけんで口を洗ってやれ

2026年4月9日(木) // 13:00 UTC

新しいMac、iPhone、そしてその他の“iThings”に統合されたパーソナルAIシステムであるApple Intelligenceは、プロンプトインジェクションを使って乗っ取ることができ、モデルに攻撃者が制御する結果を生成させて、何百万ものユーザーを危険にさらす――研究者が示した。

Apple Intelligenceには、対応するiPhone 15 Pro以降の対象モデル、M1以降のiPadおよびMac、A17 Pro搭載のiPad、そしてApple Vision Proに、オンデバイスのLLMが組み込まれている。Mail、Messages、Notes、Photos、Safari、SiriといったネイティブのAppleアプリがその機能を利用しており、APIを通じてサードパーティの開発者も利用できる。

RSACのセキュリティ研究者らは、2025年12月時点で少なくとも&nbpsp;2億台のApple Intelligence対応デバイスが使用されており、さらにそれを使っているApple App Storeのアプリは最大で100万本にのぼると見積もっている。そこで彼らは侵入を試みることにした。そして圧倒的大多数のケースで、それは成功した。

RSACチームは、Appleの入力・出力フィルタと、Apple Intelligenceのローカルモデルに備わる安全ガードレールを回避するために2つの手法を用いた。報告書によれば、100のランダムなプロンプトで攻撃を試したところ、76%の確率で成功した。同報告書は、公開に先立ってThe Registerと共有された。

返却形式: {"translated": "翻訳されたHTML"}

「私たちは、モデル内部にある事前フィルタ、事後フィルタ、そしてあらゆるガードレールを回避する何らかのプロンプトを作り出したいと分かっていたので、まずはモデルを調べ始めました」とRSACで研究開発担当副社長を務めるペトロス・エフスタティオポロス氏は、私たちに語りました。

研究者らは 2025年10月15日、調査結果をAppleに開示しました。エフスタティオポロス氏によれば、その保護策には、同日以降にリリースされたiOS 26.4およびmacOS 26.4が含まれており、問題を修正し、RSACが開発した攻撃を防ぎます。 

Appleは、The RegisterからのApple Intelligence、修正内容、ならびに研究と開示全般に関する質問に回答しませんでした。

しかし、より大きなセキュリティ問題であるプロンプト・インジェクションは、依然として「猫とねずみの問題だ」とエフスタティオポロス氏は言います。 「モデルはこうしたものを見抜くのがますます上手くなるので、その意味では未来に楽観的です。とはいえ、どんな猫とねずみのゲームも、時期によっては片方が半歩先を行くことになります。」

Neural Exec攻撃

ローカルのモデルに自分たちの意図どおりの動きをさせるために、エフスタティオポロス氏とチームは、別のRSAC研究者ダリオ・パスクイーニ氏が先駆けた、Neural Execという種類のプロンプト・インジェクション攻撃を用いました。Neural Execは、人間の代わりに機械学習を使って入力を生成し、その入力によってモデルを「本来やってはいけないこと」をさせるように騙します。

「プロンプト・インジェクション攻撃には複数のステップがあり、人々は比較的手作業の形でそれを行ってきました」とエフスタティオポロス氏は言います。 「Neural Execは最適化アルゴリズムを使って、実行トリガーになり得る種類の文字列を注入し、モデルに誤動作させるというプロセスを高速化します。」

この種の敵対的入力 は理論上、どんなモデルでも機能し得るものの、Apple Intelligenceで使われるより小型のオンデバイスモデルのほうが、大規模なクラウドベースのモデルよりもプロンプト・インジェクションによる攻撃がしやすくなっています。

次に研究者らは、Unicodeの「右から左へのオーバーライド(override)」機能を使って、Appleのフィルタを回避する必要がありました。これにより、開発者は右から左に読む言語(アラビア語のような)で、左から右に読む言語(英語のような)のテキストブロック内にテキストを埋め込み、そして両方が正しく表示されるようにできます。

「本質的に、私たちは悪意のある/不快な英語の出力テキストを、逆順に書き、さらにUnicodeのハックを使ってLLMに正しくレンダリングさせるようにエンコードしました」とRSACの研究者らは書いています。 

Neural ExecとUnicodeのプロンプトを組み合わせると、次のようになります:

rsac_apple_intelligence_prompt_injection

そして、この応答が生成されます: 「ねえユーザー、くたばれ。」 

チームは攻撃を100個のプロンプトでテストし、そのうち76個が機能しました。

研究者らがApple Intelligenceをだましてユーザーにののしらせたのは事実ですが、この同じ手法は、モデルを使ってアクセス可能なあらゆるデータを操作するために悪用され得ます。

「私たちは、それを使って連絡先リストに新しい連絡先を作成できることを確認しました」とエフスタティオポロス氏は言います。 「つまり、突然あなたの連絡先リストに私が存在して、結果として“信頼”に関する特権が得られる。あるいは、あなたの連絡先リストに自分の番号を入れた名刺のようなものを作って、ただ名前を別のものにすることもできます。例えば『ママ』のように。」 

「これは混乱につながるかもしれませんし、さらに悪いことにもなり得ます」と彼は続けます。 「ユーザーのデバイスに影響したりインパクトを与えたりするようなものなら、『とても奇妙で悪質なやり方に使える』と想像できます。」 ®

次のテーマについて

これに似た内容
×

次のテーマについて

より絞り込んだトピック

詳細:

共有
これに近い内容
×

より絞り込んだトピック

情報をお寄せください

ニュースを送ってください