Abstract
大規模言語モデルにおける残差ストリームの活性の幾何構造を解析することで、有害なプロンプトを検出するためのトレーニング不要手法である LatentBiopsy を提示します。200個の安全な規範的プロンプトが与えられると、LatentBiopsy は対象レイヤーにおけるそれらの活性の主要な主成分を計算し、参照方向からの新しいプロンプトの放射状偏差角 heta によって特徴付けます。異常スコアは、規範的分布に対してガウス分布を当てはめたときの heta の負の対数尤度であり、向きに関わらず対称に偏差を検出します。有害な例は学習に必要ありません。
Qwen3.5-0.8B および Qwen2.5-0.5B ファミリーの、2つの完全なモデル・トリプレット(ベース、instruction-tuned(指示調整)、および \\emph{abliterated}(拒否方向を直交化によって外科的に除去))を評価します。全6つのバリアントにおいて、LatentBiopsy は有害対規範の検出で AUROC =0.937 以上を達成し、有害対無害・攻撃的(XSTest)では AUROC = 1.000 を達成します(クエリあたりのオーバーヘッドはサブミリ秒)。
3つの経験的な知見が得られます。第一に、幾何構造は拒否アブレーションに耐えます。両方の abliterated バリアントは、それぞれ instruction-tuned 対応物に対して AUROC が最大 0.015 以内に収まり、有害な意図の表現と、下流の生成的な拒否メカニズムとの間に幾何学的な解離が存在することを示します。第二に、有害プロンプトは、ほぼ退化した角度分布を示します(\sigma_\theta approx 0.03 rad)。これは規範的分布(\sigma_\theta approx 0.27 rad)よりも1桁以上タイトであり、abliteration を含むすべてのアラインメント段階にわたって維持されます。第三に、2つのファミリーは同じ深さにおいて反対のリング配向を示します。有害プロンプトは Qwen3.5-0.8B では外側リングを占める一方で、Qwen2.5-0.5B では内側リングを占めます。これは、方向に依存しないスコアリング規則を直接動機づけます。