広告

有害な意図の幾何学:LLMの残差ストリームにおける角度偏差によるトレーニング不要の異常検知

arXiv cs.LG / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、200件の安全な規範プロンプトから導出した主成分参照に対するLLM残差ストリーム活性の角度偏差(放射方向の偏差角)を用いる、トレーニング不要の有害プロンプト検出器「LatentBiopsy」を提案する。
  • 逸脱角のガウス分布フィットに基づく負の対数尤度によってプロンプトをスコアリングし、有害例を学習する必要のない、対称的な幾何学的逸脱を検出する方向非依存の異常指標を用いる。
  • Qwen3.5-0.8BおよびQwen2.5-0.5Bのモデルの組(ベース、指示チューニング、さらに「abliterated」版=拒否方向が除去された変種)での実験では、有害vs良性・攻撃的XSTestにおいて高い検出性能が示され、AUROC ≥ 0.937およびAUROC = 1.000を達成する。
  • 著者らは、拒否方向のアブレーション後でも幾何学的な信号が持続することを見出し、有害な意図の表現が、下流の拒否メカニズムから幾何学的に分離されていることを示唆している。
  • アラインメントの各段階において、有害プロンプトはより狭い(より縮退した)角度分布を形成し(σθ ≈ 0.03 rad、規範ではσθ ≈ 0.27 rad)、また2つのモデル系は同一層で異なる向きのリングを示す。そのため、方向非依存のスコアリング規則が動機づけられる。

Abstract

大規模言語モデルにおける残差ストリームの活性の幾何構造を解析することで、有害なプロンプトを検出するためのトレーニング不要手法である LatentBiopsy を提示します。200個の安全な規範的プロンプトが与えられると、LatentBiopsy は対象レイヤーにおけるそれらの活性の主要な主成分を計算し、参照方向からの新しいプロンプトの放射状偏差角 heta によって特徴付けます。異常スコアは、規範的分布に対してガウス分布を当てはめたときの heta の負の対数尤度であり、向きに関わらず対称に偏差を検出します。有害な例は学習に必要ありません。 Qwen3.5-0.8B および Qwen2.5-0.5B ファミリーの、2つの完全なモデル・トリプレット(ベース、instruction-tuned(指示調整)、および \\emph{abliterated}(拒否方向を直交化によって外科的に除去))を評価します。全6つのバリアントにおいて、LatentBiopsy は有害対規範の検出で AUROC =0.937 以上を達成し、有害対無害・攻撃的(XSTest)では AUROC = 1.000 を達成します(クエリあたりのオーバーヘッドはサブミリ秒)。 3つの経験的な知見が得られます。第一に、幾何構造は拒否アブレーションに耐えます。両方の abliterated バリアントは、それぞれ instruction-tuned 対応物に対して AUROC が最大 0.015 以内に収まり、有害な意図の表現と、下流の生成的な拒否メカニズムとの間に幾何学的な解離が存在することを示します。第二に、有害プロンプトは、ほぼ退化した角度分布を示します(\sigma_\theta approx 0.03 rad)。これは規範的分布(\sigma_\theta approx 0.27 rad)よりも1桁以上タイトであり、abliteration を含むすべてのアラインメント段階にわたって維持されます。第三に、2つのファミリーは同じ深さにおいて反対のリング配向を示します。有害プロンプトは Qwen3.5-0.8B では外側リングを占める一方で、Qwen2.5-0.5B では内側リングを占めます。これは、方向に依存しないスコアリング規則を直接動機づけます。

広告