要約: 言語モデルは広範な安全性トレーニングにもかかわらず、プロンプト挿入攻撃に対して依然として脆弱である。私たちはこの失敗を役割混乱に起因すると追跡する。モデルはテキストの書き方から役割を推測し、出所から来たものかどうかを判断しない。私たちは内部的に「誰が話しているのか」を識別する方法を捉える新規の役割プローブを設計する。これらは、なぜプロンプト挿入が機能するのかを明らかにする。信頼されていないテキストが役割を模倣すると、その役割の権威を継承する。私たちはこの洞察を検証するために、ユーザーのプロンプトとツール出力へ偽装した推論を注入し、複数のオープンウェイトおよびクローズドウェイトモデルで、ほぼゼロのベースラインから、StrongREJECTで平均60%、agent exfiltrationで61%の平均成功率を達成した。驚くべきことに、内部の役割混乱の程度は、生成が始まる前に攻撃の成功を強く予測する。我々の発見は根本的なギャップを示す。セキュリティはインターフェイスで定義されるが、権威は潜在空間に割り当てられる。より広く言えば、プロンプト注入の統一的で機械的なフレームワークを導入し、多様なプロンプト注入攻撃が同じ基本的な役割混乱のメカニズムを悪用していることを示す。
役割混乱としてのプロンプトインジェクション
arXiv cs.AI / 2026/3/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 著者らは役割混乱をプロンプトインジェクションの根本原因として特定し、モデルは情報源の由来よりも書き方(文体)から役割を推測すると指摘している。
- 彼らは、モデルが内部的に「誰が話しているのか」を識別する方法を測定する新規の役割プローブを開発し、テキストがある役割の権威を模倣するときにインジェクションが機能する理由を説明する。
- 彼らは、ユーザープロンプトやツール出力に偽の推論を注入して彼らの発見を検証し、複数のモデルで StrongREJECT で平均約60%、エージェント情報の流出で約61%の成功率を達成し、基準はほぼゼロであった。
- 結果は、内部の役割混乱の程度が生成が始まる前でも攻撃の成功を強く予測することを示している。
- 彼らは、プロンプトインジェクションの統一的で機械論的な枠組みを提案し、多様なプロンプトインジェクション攻撃が同じ役割混乱メカニズムを利用していると主張し、インターフェースレベルのセキュリティと潜在空間の権威に関する含意を提起している。
