LLM搭載エージェントにおける敵対的な相互作用パターン検出のための低レイテンシ不正検知レイヤー

arXiv cs.AI / 2026/5/5

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、単一プロンプトのフィルタリングを超えて、LLMパoweredエージェントを多ターンのやり取りを通じて操作する敵対的インタラクションパターンを低レイテンシで検出する不正検知レイヤーを提案しています。
提案手法は、個々のプロンプトを「悪意あり」と分類するのではなく、プロンプトの特徴、セッションの動き、ツール利用、実行コンテキスト、詐欺に着想したシグナルなどから得た構造化された実行時特徴により、相互作用の軌跡全体でリスクをモデル化します。
検知器は軽量モデルで実装でき、既存のプロンプトレベル対策やルールベースのガードレールを補完しつつ、リアルタイム運用を目指しています。
評価では合成データセット（12,000件のマルチターン・エージェント対話）を用い、42の特徴量とXGBoost分類器で、LLMベース検知器より9倍超の高速化を達成しています。
本研究は、相互作用レベル（軌跡ベース）の行動検出を、LLMエージェントのデプロイ時セキュリティの中核にすべきだと結論づけています。