DynaTrust: 動的信頼グラフを用いた潜伏エージェントからのマルチエージェントシステム防御

arXiv cs.AI / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

DynaTrustは、マルチエージェントシステムを静的属性としてではなく、進化する信頼ネットワークとしてモデル化する動的信頼グラフ（DTG）を導入する。
本手法は、各エージェントの信頼を歴史的な振る舞いと選択された専門エージェントの信頼度に基づいて更新し、潜伏エージェントに対する適応的な対応を可能にする。
ブロックする代わりに、DynaTrustはグラフを再構成して侵害されたエージェントを隔離しつつ、タスクの連結性とシステムの使用可能性を維持する。
AdvBenchとHumanEvalの混合ベンチマークでの評価は、DynaTrustがAgentShieldを上回り、防御成功率を41.7%向上させ、敵対的条件下で86%以上の成功率を達成したことを示している。
このアプローチは偽陽性率も低減し、継続的なグラフ適応を通じてセキュリティと継続的な運用のバランスを取る。

要旨: 大規模言語モデルに基づくマルチエージェントシステム（MAS）は、卓越した協調推論能力を示してきたが、スリーパーエージェントのような新たな攻撃面を生み出す。スリーパーエージェントは通常の運用時には無害に振る舞い、徐々に信頼を蓄積し、特定の条件やトリガーが満たされた場合にのみ悪意のある挙動を露呈する。既存の防御手法は主に静的グラフの最適化や階層的データ管理に焦点を当てており、進化する敵対戦略への適応に失敗したり、硬直的なブロック方針による高い偽陽性率（FPR）に悩まされることが多い。これを解決するため、スリーパーエージェントに対する新規防御手法であるDynaTrustを提案します。DynaTrustはMASを動的信頼グラフ（DTG）としてモデル化し、信頼を静的な属性ではなく、継続的で進化するプロセスとして扱います。それは、各エージェントの過去の挙動と選択された専門家エージェントの信頼度に基づいて、信頼を動的に更新します。単純にブロックするだけでなく、DynaTrustは自律的にグラフを再構築して侵害されたエージェントを孤立させ、タスクの連結性を回復してMASの実用性を確保します。DynaTrustの有効性を評価するため、AdvBenchとHumanEvalに由来する混合ベンチマークで評価します。結果は、最先端の手法AgentShieldを上回り、防御成功率を41.7％向上させ、敵対的条件下で86％を超える達成率を達成することを示しています。さらに、偽陽性率（FPR）を大幅に低減することでセキュリティと有用性のバランスを効果的に取り、グラフ適応を通じてシステム運用の中断を回避します。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

DynaTrust: 動的信頼グラフを用いた潜伏エージェントからのマルチエージェントシステム防御

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer