トリガーの統合とバックドアの無効化：指示チューニング済み言語モデルに対する防御的ポイズニング

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、指示チューニング済みLLMが、学習データが人間またはWebから調達されるためにバックドア攻撃に脆弱であり、攻撃者が少量のサブセットをポイズニングして隠れた振る舞いを埋め込めることを示している。
「MB-Defense」を提案し、2段階の学習パイプラインとして、「Defensive Poisoning」（攻撃者のトリガーと防御側のトリガーを統合して単一のバックドア表現にまとめる）と、「Backdoor Neutralization」（追加学習によってその表現を破壊し、クリーンな挙動を回復する）を組み合わせる。
複数のLLMに対して報告された実験では、MB-Defenseが攻撃成功率を大幅に低下させつつ、指示に従う能力はほぼ維持できることが示されている。
著者らは、このアプローチが汎用的でデータ効率が高いと主張しており、既知および未見のバックドア脅威バリアントの両方に対する頑健性を狙っている。