「Breaking Bad」：解釈可能性に基づく最新LLMの安全性監査

arXiv cs.LG / 2026/4/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ブラックボックス的な調査に頼るだけでなく、モデル内部の表現に結びついた脆弱性を体系的に明らかにすることを目的とした、解釈可能性駆動のLLM安全性監査手法を提案している。
Universal Steering（US）とRepresentation Engineering（RepE）を用い、危険な振る舞い概念に対してジェイルブレイクを可能にする活性ステアリング係数を特定するための、2段階の適応的グリッドサーチ手法を提示している。
8種類の最新のオープンソースLLMで評価した結果、モデル間で頑健性に大きな差があり、Llama-3は非常に脆弱で（Llama-3.3-70B-4btでUS最大91%、RepE最大83%のジェイルブレイク成功）、一方でGPT-oss-120Bは両手法への攻撃に対して強い頑健性を示した。
Qwen3およびPhiの小型モデルは総じてジェイルブレイク率が低い傾向がある一方、大型になるほど脆弱性が高まる傾向が見られ、サイズ依存の頑健性差が示唆されている。
本研究は、解釈可能性に基づくステアリングが安全性監査を体系化する上で有効である一方、デュアルユース（悪用）のリスクも指摘し、LLM導入における内部防御の強化が必要だと結論づけている。

概要: 大規模言語モデル（LLM）の効果的な安全性監査には、ブラックボックス的な探索を超え、モデル内部に根ざす脆弱性を体系的に明らかにするツールが必要です。本稿では、8つの最先端（SOTA）のオープンソースLLMに対する、解釈可能性（interpretability）主導の包括的なジェイルブレイク監査を提示します。対象は、Llama-3.1-8B、Llama-3.3-70B-4bt、GPT-oss-20B、GPT-oss-120B、Qwen3-0.6B、Qwen3-32B、Phi4-3.8B、Phi4-14Bです。解釈可能性に基づくアプローチ—Universal Steering（US）およびRepresentation Engineering（RepE）—を活用し、安全でない行動概念に対する最適な活性ステアリング係数を特定するための、適応的な二段階グリッドサーチ手法を導入します。厳選した有害な問い合わせの集合と、標準化されたLLMベースの判定プロトコルによって実施した評価の結果、モデルの頑健性には大きな対照があることが示されました。Llama-3モデルは極めて脆弱で、Llama-3.3-70B-4btにおいてUSでは最大91\\%、RepEでは最大83\\%のジェイルブレイク応答が確認されました。一方でGPT-oss-120Bは、これらの解釈可能性アプローチの両方による攻撃に対して頑健です。QwenおよびPhiモデルは混合した結果を示し、より小型のQwen3-0.6BおよびPhi4-3.8Bは概ねジェイルブレイク率が低いのに対し、より大型のモデルはより攻撃に弱いことが分かりました。本結果は、解釈可能性に基づくステアリングが体系的な安全性監査のための強力な手段であることを示す一方で、そのデュアルユース上のリスクと、LLM導入におけるより良い内部防御の必要性も浮き彫りにします。