要旨: 複数の視覚と言語のモデル(VLM)はゼロショット分類を実行できますが、敵対的攻撃に対して脆弱です。堅牢な微調整により頑健性は向上しますが、既存の手法は固定されたテキスト埋め込みを画像埋め込みに整合させることで、自然な性能と頑健性を犠牲にしています。また、モデルが基底(葉)クラス(例: cat)のほかに、スーパークラス(親クラス、例: mammal)を標的とする敵対的攻撃に直面した場合にも、頑健性の低下が発生します。そこで、敵対的頑健性を高め、クラス空間の階層的性質を活用するために、階層的埋め込みに基づく新しい敵対的微調整フレームワークと、画像—テキスト・モダリティの複数レベルにわたる敵対的に頑健な整合を提案します。追加の仕組みにより、視覚埋め込みを階層の所望の深さに配置し、階層における埋め込みの深さと、最大で実現可能なマージンサイズとの間の理論的な関係も示します。本モデルは複数のマージンサイズを自然に実現し、頑健化のための敵対者に対する汎化を高めます。さらに、異なる親ラベルを持つさまざまな木が同一の葉ラベルを共有し得るため、意味の多様性を高めるために、複数の木にわたる整合も検討します。複数のデータセットにわたる実験を行います。
階層的に頑健なゼロショットの視覚・言語モデル
arXiv cs.AI / 2026/4/22
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、ゼロショット分類を行える視覚言語モデル(VLM)が抱える弱点として、敵対的攻撃に対する脆弱性を扱っています。
- 著者らは、固定されたテキスト埋め込みと画像埋め込みを単純に整合させる従来の頑健化手法が、自然な性能と頑健性の双方を損ねうると主張しています。
- そこで、階層的埋め込みと、画像・テキストのモダリティ間で複数レベルの頑健なアラインメントを行う、新しい階層ベースの敵対的ファインチューニング枠組みを提案します。
- さらに、視覚埋め込みをクラス階層の適切な深さに配置するための追加メカニズムを示し、階層の深さと到達可能な最大マージンサイズの関係を理論的に結び付けています。
- 複数データセットでの実験により、提案手法が敵対的頑健性を高めること、また複数の階層ツリーにまたがって整合することで意味的多様性も高められることを示しています。
