要旨: 視覚言語モデル(VLM)の急速な発展により、安全性の脆弱性が強く注目されるようになった。しかし、既存のレッドチーミング手法は本質的に線形探索というパラダイムに根本的に制約されているため、あらかじめ定義された戦略集合内での最適化に閉じ込められ、新規で多様な悪用(エクスプロイト)の発見が妨げられる。こうした制約を超えるために、本論文ではTreeTeamingを導入する。TreeTeamingは、戦略探索を静的なテストから動的で進化的な発見プロセスへと作り替える自動レッドチーミングの枠組みである。その中核には、大規模言語モデル(LLM)を用いた戦略オーケストレータがあり、有望な攻撃経路を進化させるべきか、あるいは多様な戦略分岐を探索するべきかを自律的に判断することで、戦略ツリーを動的に構築し拡張する。次に、マルチモーダル・アクチュエータが、これらの複雑な戦略を実行する役割を担う。12の主要なVLMにまたがる実験では、TreeTeamingは11モデルで最先端の攻撃成功率を達成し、既存手法を上回っており、GPT-4oで最大87.60
a%まで到達した。さらに、この枠組みは、これまでに公開されていたジルブレイク戦略の集合(和集合)に対して、より優れた戦略多様性も示している。加えて、生成された攻撃は平均で毒性を23.09
a%低減しており、そのステルス性と巧妙さがうかがえる。本研究は、自動化された脆弱性発見のための新たなパラダイムを提示し、最前線のAIモデルを安全にするためには、静的なヒューリスティックを超えた能動的な探索が必要であることを強調する。
TreeTeaming: 階層的戦略探索による視覚言語モデルの自律的レッドチーミング
arXiv cs.LG / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、既存のVLM向けレッドチーミングが線形で事前に定義された戦略探索により制約されており、新規かつ多様な悪用パターンを見逃し得ると主張している。
- LLM駆動の戦略オーケストレータを用いて、静的なテスト対象のセットに限定するのではなく、戦略ツリーを動的に進化・分岐させる自動化フレームワーク「TreeTeaming」を提案する。
- マルチモーダルなアクチュエータが発見した戦略を視覚言語モデルに対して実行し、より複雑でクロスモーダルな攻撃ワークフローを可能にする。
- 12の著名なVLMに対する実験により、11モデルで最先端の攻撃成功率を達成しており、GPT-4oでは最大87.60%を記録した。加えて、従来の公開されたジェイルブレイク用セットより戦略の多様性が向上している。
- 生成された攻撃は平均毒性も23.09%低下させており、ステルス性が高まることで、現実の対立的(アドバーサリアル)条件をより適切に反映できる可能性が示されている。