要旨:
Vision-Language Models(VLM)は、共有された埋め込み空間においてテキスト情報と視覚情報を整合させることで、画像合成、キャプション付与、検索などのタスクにとって不可欠なものになってきました。しかし、この柔軟性は、危険なコンテンツを生成させることを目的とした悪意あるプロンプトに対して脆弱でもあり、重大な安全性に関する懸念を引き起こします。既存の防御策は、簡単に回避されてしまうブラックリスト型のフィルタに依存するか、あるいは重たい分類器ベースのシステムに依存しており、いずれもコストが高く、埋め込みレベルの攻撃に対して脆弱であるという問題があります。そこで本研究では、2つの補完的な構成要素によってこれらの課題に取り組みます。Hyperbolic Prompt Espial(HyPE)とHyperbolic Prompt Sanitization(HyPS)です。HyPEは、双曲空間の構造化された幾何学を活用して良性のプロンプトをモデル化し、危険なプロンプトを外れ値として検出する、軽量な異常検知器です。HyPSはこの検出を基盤として、説明可能なアトリビューション手法を適用し、有害な語を特定して選択的に修正します。これにより、安全でない意図を無力化しつつ、ユーザープロンプトの元の意味論を保持します。複数のデータセットと敵対的シナリオにまたがる大規模な実験を通じて、提案フレームワークが検出精度と頑健性の両面において、従来の防御策を一貫して上回ることを示します。HyPEとHyPSにより、悪意あるプロンプトの不正利用からVLMを守るための、効率的で解釈可能かつ回復力のあるアプローチが提供されます。
双曲幾何学を活用した有害プロンプトの検出とサニタイズ
arXiv cs.AI / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、悪意のあるプロンプトが、テキストと画像の埋め込み整合(アラインメント)を共有することで、危険な出力を誘発できてしまう、視覚言語モデル(VLM)の安全性脆弱性を対象にする。
- それに対し、HyPEという軽量な異常検出器を提案する。双曲幾何学を用いて良性のプロンプトをモデル化し、危険なものを幾何学的な外れ値として検出する。
- さらにHyPSを追加する。説明可能なアトリビューション(帰属)を使って特定の有害語を特定し、ユーザーの元の意図/セマンティクスを保持しつつ、その有害語を選択的に修正するサニタイズ手順である。
- 複数のデータセットおよび敵対的シナリオに対する実験の結果、HyPE+HyPSは、検出精度および埋め込みレベル攻撃への頑健性の両面で、従来の防御よりも優れていることが示される。
- このアプローチは、簡単に回避され得るブラックリストによる手法や、計算コストが高く壊れやすい分類器ベースのシステムと比べて、効率的かつ解釈可能であると位置づけられている。



