AI Navigate

Neural Gate: ニューロンレベルの勾配ゲーティングによる LVLM のプライバシーリスク緩和

arXiv cs.CV / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • LVLM には、攻撃者が機微情報を抽出する可能性があるなどのプライバシーリスクがあり、未知のプライバシークエリに対処できず、標準タスクの性能が低下することがある。
  • Neural Gate は、プライバシー関連ニューロンを識別する特徴ベクトルを学習し、それに基づいて標的パラメータ更新を指示することで、ニューロンレベルのモデル編集を実現する。
  • このアプローチは、プライバシー関連の質問を拒否する割合を高め、編集時に見られなかった新規の機微なクエリにも保護的な挙動を拡張することを目指す。
  • MiniGPT および LLaVA を対象とした実験により、元の有用性を維持しつつプライバシー保護が向上することを示している。

アナウンスの種類: 新規
要約:
大型ビジョン-言語モデル(LVLMs)は、幅広いビジョン-言語タスクにおいて顕著な可能性を示しており、金融や医療といった重要な分野での採用を促しています。
しかし、これらのモデルの展開が進むにつれて、重大なセキュリティとプライバシーリスクも生じています。悪意のある者がこれらのモデルを悪用して機密情報を抽出する可能性があり、重大な脆弱性を浮き彫りにしています。
最近の研究は、LVLMがユーザのプライバシーを侵害するように設計された指示を一貫して拒否できないことが多いことを示しています。
プライバシー保護に関する既存の研究は、機微なデータの漏洩を防ぐ上で有意義な進展を遂げていますが、一般化と非破壊性の両方の制約に縛られています。
未知のプライバシー関連クエリに対して頑健に対処するのに苦労することが多く、標準タスクでモデルの性能を意図せず低下させる可能性があります。
これらの課題に対処するため、Neural Gate(ニューラルゲート)と呼ばれるニューロンレベルのモデル編集を通じてプライバシーリスクを軽減する新しい手法を紹介します。
本手法は、プライバシー関連の質問に対する拒否率を高めることでモデルのプライバシー保護機能を向上させ、編集過程で遭遇しなかった新規の機微な問い合わせにもこの保護行動を拡張します。
Neural Gateは、対象の表現内でプライバシー関連の概念に関連するニューロンを識別する特徴ベクトルを学習することによって機能します。
この局在化はモデルパラメータの更新を正確に導きます。
MiniGPTおよびLLaVAを用いた包括的な実験を通じて、我々の手法が元の有用性を維持しつつモデルのプライバシー保護を大幅に高めることを示しています。