SafeReview:敵対的な隠れプロンプトからLLMベースのレビューシステムを守る
arXiv cs.CL / 2026/4/30
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 論文は、学術的査読にLLMが組み込まれる中で、提出物に埋め込まれた敵対的な隠れプロンプトが結果を操作し得る点を、重大な脅威として指摘しています。
- 提案されているのは、攻撃用プロンプトを生成するGeneratorと、それを検出するDefenderモデルによる敵対的フレームワークです。
- 共同学習では、Information Retrieval Generative Adversarial Networksに着想を得た損失関数を用い、攻撃者と検出器の継続的な共進化を促します。
- 動的な共進化に基づく手法は、固定的な防御よりも、新規かつ進化する敵対的脅威に対して大幅に高い耐性を示したと報告されています。
- 本研究は、LLM駆動の査読の信頼性(整合性)を守るための重要な基礎になることを主張しています。




