感染が広がる前に食い止める：マルチエージェント・システムにおける先読み誘導型防御

arXiv cs.AI / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

大規模マルチモーダル・モデルによるマルチエージェント・システムは、「感染性のあるジルブレイク」により、一体のエージェントが侵害されると攻撃が他へ素早く拡散し得ます。
共有の「治療要因」をより“感染しやすく”なるよう学習する従来の対策は表面的な抑制にとどまり、エージェントの応答を均質化して真の回復と多様性維持が難しいという課題があります。
本論文は、訓練なしの先読み誘導型ローカル浄化（FLP）として、各エージェントが将来の相互作用の軌跡をシミュレートし、行動の変化を追跡して感染を検出する手法を提案します。
FLPはマルチ・パーソナ・シミュレーションで頑健な予測を行い、応答の多様性を診断シグナルとしてVirAEsの位置を特定したうえで、アルバムのロールバックやRecursive Binary Diagnosisを含む局所的な浄化を適用します。
実験では、最大累積感染率を95%超から5.47%未満へ大幅に低減しつつ、リトリーブおよびセマンティクス指標が良性ベースラインに近いことが示されています。