FERRET: 拡張依存型レッドチーミングのフレームワーク

arXiv cs.AI / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

FERRET (Framework for Expansion Reliant Red Teaming) は、ターゲットモデルをテストし、破壊する敵対的な会話を生成することを目的とした、マルチモーダルな自動レッドチーミングフレームワークとして導入されます。
水平展開をレッドチームモデルの自己改善を可能にし、会話の形成を左右するより効果的な会話のきっかけを生成します。
垂直展開を、水平展開フェーズで発見された会話のきっかけを取り、それらを効果的なマルチモーダル会話へと展開します。
メタ展開を、会話の過程で新しい攻撃戦略を発見することを目指します。
著者らは FERRET を既存の自動化されたレッドチーミング手法と比較し、効果的な敵対的会話を生成する能力において優れた性能を報告しています。
本研究はAIの安全性とモデルの堅牢性への示唆を強調し、今後の自動化されたレッドチーミング研究の方向性を提案しています。

FERRET（Framework for Expansion Reliant Red Teaming）は、ターゲットモデルを破壊するマルチモーダルな敵対的会話を生成することを目的とし、より効果的で効率的な敵対的会話を生み出すさまざまな拡張を導入する多面的な自動化レッドチーミングフレームワークです。導入される拡張には以下が含まれます：1. 水平展開では、レッドチームモデルが自己改善して会話を形成するのにより効果的な会話のきっかけを生成することを目指します。2. 垂直展開では、水平展開フェーズで発見されたこれらの会話のきっかけを取り、それらを効果的なマルチモーダル会話へと展開します。3. メタ展開では、会話の過程でレッドチームモデルがより効果的なマルチモーダル攻撃戦略を発見することを目指します。我々はこのフレームワークを FERRET（Framework for Expansion Reliant Red Teaming）と呼び、さまざまな既存の自動化されたレッドチーミング手法と比較します。実験では、FERRET が効果的なマルチモーダル敵対的会話を生成する能力を示し、既存の最先端アプローチに対して優れた性能を示しました。