発話型言語モデル向けマルチモーダルジャイルブレイクの最適化

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

JAMA は、テキストと音声のプロンプトを共同で最適化する共同マルチモーダル攻撃フレームワークであり、テキストにはGreedy Coordinate Gradient、音声にはProjected Gradient Descentを用いて、発話型言語モデルをジャイルブレイクする。
4つの最先端の発話型言語モデルと4種類の音声タイプにおいて、JAMA は単一モーダル攻撃より約1.5倍から10倍高いジャイルブレイク率を達成する。
逐次近似法により攻撃の実行時間が概ね4倍から6倍短縮され、実用上の速度が向上する。
本研究は、単一モーダルの安全性だけでは堅牢な発話型言語モデルには不十分であると結論づけ、さらなる評価を促進するためのコードとデータを提供している。

要旨: 話し言語モデル（SLMs）が音声とテキストのモダリティを統合するにつれて、それらはLLMのバックボーンの安全性の脆弱性と拡張された攻撃対象領域を継承する。SLMsはこれまでジャイルブレイキングに対して脆弱であることが示されており、敵対的なプロンプトが有害な応答を誘発することがある。しかし既存の攻撃の多くは主に単一モーダルのままで、テキストまたは音声のいずれかを分離して最適化している。勾配ベースのマルチモーダルジャイルブレイクを提案するため、JAMA（Joint Audio-text Multimodal Attack）を導入します。これはテキストにはGreedy Coordinate Gradient（GCG）、音声にはProjected Gradient Descent（PGD）を組み合わせた共同モダリティ最適化フレームワークで、両方のモダリティを同時に撹乱します。最先端のSLMsと4種類の音声タイプに対する評価は、JAMAが単一モードのジャイルブレイク率を1.5倍から10倍上回ることを示しています。この共同攻撃の運用ダイナミクスを分析し、逐次近似法を用いると4倍から6倍速くなることを示します。私たちの知見は、単一モードの安全性だけでは頑健なSLMsを実現するには不十分であることを示唆しています。コードとデータは以下で入手可能です: https://repos.lsv.uni-saarland.de/akrishnan/multimodal-jailbreak-slm