有害な意図の幾何学：LLMの残差ストリームにおける角度偏差によるトレーニング不要の異常検知

arXiv cs.LG / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、200件の安全な規範プロンプトから導出した主成分参照に対するLLM残差ストリーム活性の角度偏差（放射方向の偏差角）を用いる、トレーニング不要の有害プロンプト検出器「LatentBiopsy」を提案する。
逸脱角のガウス分布フィットに基づく負の対数尤度によってプロンプトをスコアリングし、有害例を学習する必要のない、対称的な幾何学的逸脱を検出する方向非依存の異常指標を用いる。
Qwen3.5-0.8BおよびQwen2.5-0.5Bのモデルの組（ベース、指示チューニング、さらに「abliterated」版＝拒否方向が除去された変種）での実験では、有害vs良性・攻撃的XSTestにおいて高い検出性能が示され、AUROC ≥ 0.937およびAUROC = 1.000を達成する。
著者らは、拒否方向のアブレーション後でも幾何学的な信号が持続することを見出し、有害な意図の表現が、下流の拒否メカニズムから幾何学的に分離されていることを示唆している。
アラインメントの各段階において、有害プロンプトはより狭い（より縮退した）角度分布を形成し（σθ ≈ 0.03 rad、規範ではσθ ≈ 0.27 rad）、また2つのモデル系は同一層で異なる向きのリングを示す。そのため、方向非依存のスコアリング規則が動機づけられる。

Abstract

大規模言語モデルにおける残差ストリームの活性の幾何構造を解析することで、有害なプロンプトを検出するためのトレーニング不要手法である LatentBiopsy を提示します。200個の安全な規範的プロンプトが与えられると、LatentBiopsy は対象レイヤーにおけるそれらの活性の主要な主成分を計算し、参照方向からの新しいプロンプトの放射状偏差角

heta

によって特徴付けます。異常スコアは、規範的分布に対してガウス分布を当てはめたときの

heta

の負の対数尤度であり、向きに関わらず対称に偏差を検出します。有害な例は学習に必要ありません。 Qwen3.5-0.8B および Qwen2.5-0.5B ファミリーの、2つの完全なモデル・トリプレット（ベース、instruction-tuned（指示調整）、および \\emph{abliterated}（拒否方向を直交化によって外科的に除去））を評価します。全6つのバリアントにおいて、LatentBiopsy は有害対規範の検出で AUROC

=0.937

以上を達成し、有害対無害・攻撃的（XSTest）では AUROC = 1.000 を達成します（クエリあたりのオーバーヘッドはサブミリ秒）。 3つの経験的な知見が得られます。第一に、幾何構造は拒否アブレーションに耐えます。両方の abliterated バリアントは、それぞれ instruction-tuned 対応物に対して AUROC が最大 0.015 以内に収まり、有害な意図の表現と、下流の生成的な拒否メカニズムとの間に幾何学的な解離が存在することを示します。第二に、有害プロンプトは、ほぼ退化した角度分布を示します（

\sigma_\theta approx 0.03

rad）。これは規範的分布（

\sigma_\theta approx 0.27

rad）よりも1桁以上タイトであり、abliteration を含むすべてのアラインメント段階にわたって維持されます。第三に、2つのファミリーは同じ深さにおいて反対のリング配向を示します。有害プロンプトは Qwen3.5-0.8B では外側リングを占める一方で、Qwen2.5-0.5B では内側リングを占めます。これは、方向に依存しないスコアリング規則を直接動機づけます。

Black Hat Asia

AI Business

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

Dev.to

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

有害な意図の幾何学：LLMの残差ストリームにおける角度偏差によるトレーニング不要の異常検知

要点

Abstract

関連記事

Black Hat Asia

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer