役割混乱としてのプロンプトインジェクション

arXiv cs.AI / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは役割混乱をプロンプトインジェクションの根本原因として特定し、モデルは情報源の由来よりも書き方（文体）から役割を推測すると指摘している。
彼らは、モデルが内部的に「誰が話しているのか」を識別する方法を測定する新規の役割プローブを開発し、テキストがある役割の権威を模倣するときにインジェクションが機能する理由を説明する。
彼らは、ユーザープロンプトやツール出力に偽の推論を注入して彼らの発見を検証し、複数のモデルで StrongREJECT で平均約60%、エージェント情報の流出で約61%の成功率を達成し、基準はほぼゼロであった。
結果は、内部の役割混乱の程度が生成が始まる前でも攻撃の成功を強く予測することを示している。
彼らは、プロンプトインジェクションの統一的で機械論的な枠組みを提案し、多様なプロンプトインジェクション攻撃が同じ役割混乱メカニズムを利用していると主張し、インターフェースレベルのセキュリティと潜在空間の権威に関する含意を提起している。

要約: 言語モデルは広範な安全性トレーニングにもかかわらず、プロンプト挿入攻撃に対して依然として脆弱である。私たちはこの失敗を役割混乱に起因すると追跡する。モデルはテキストの書き方から役割を推測し、出所から来たものかどうかを判断しない。私たちは内部的に「誰が話しているのか」を識別する方法を捉える新規の役割プローブを設計する。これらは、なぜプロンプト挿入が機能するのかを明らかにする。信頼されていないテキストが役割を模倣すると、その役割の権威を継承する。私たちはこの洞察を検証するために、ユーザーのプロンプトとツール出力へ偽装した推論を注入し、複数のオープンウェイトおよびクローズドウェイトモデルで、ほぼゼロのベースラインから、StrongREJECTで平均60%、agent exfiltrationで61%の平均成功率を達成した。驚くべきことに、内部の役割混乱の程度は、生成が始まる前に攻撃の成功を強く予測する。我々の発見は根本的なギャップを示す。セキュリティはインターフェイスで定義されるが、権威は潜在空間に割り当てられる。より広く言えば、プロンプト注入の統一的で機械的なフレームワークを導入し、多様なプロンプト注入攻撃が同じ基本的な役割混乱のメカニズムを悪用していることを示す。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/19Weeklyインサイトを見る →📅 3/16Dailyインサイトを見る →

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

役割混乱としてのプロンプトインジェクション

要点

💡 この記事が使われたインサイト

関連記事

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer