Precise Shield：NeuronレベルのガイダンスによるVLLM安全性の説明と整合

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚言語の大規模モデルが、複合的な多言語／マルチモーダル攻撃によって悪用され得ると主張している。具体的には、有害な画像と低リソース言語のテキストを組み合わせることで、高リソース言語向けに調整された防御を回避できてしまう。
本論文は、VLLMにおける「安全性能力」がどこに存在するのかという機械論的な問いを提示し、それが言語やモダリティをまたいで共有される、少数の「安全ニューロン」に集中しているのかを検討する。
提案手法のPrecise Shieldは2段階の方法であり、まず有害時と無害時の活性パターンを対比することで安全ニューロンを特定し、その後グラデーション・マスキングにより、更新を非常に小さなニューロン部分空間（パラメータの<0.03%）に制限する。
著者らは、このニューロンレベルの制約が安全性を改善しつつ、多言語およびマルチモーダルの汎化能力を概ね維持することを報告している。
また、言語およびモダリティ間で安全ニューロンが中程度に重複していることを見出しており、このため両モダリティおよび両言語にまたがる安全性改善をゼロショットで転移できる。