要旨: 有害な意図は、大規模言語モデルの残差ストリームから幾何学的に復元可能である。すなわち、多くの層では線形な方向として、また射影(プロジェクション)手法が失敗する層では角度的な偏差として復元できる。4つのアーキテクチャ系統(Qwen2.5、Qwen3.5、Llama-3.2、Gemma-3)にまたがる12のモデル、さらに3つのアライメント変種(ベース、指示チューニング、abliterated)について、単一ターンの英語評価のもとで、この幾何学を6つの方向探索戦略によって特徴付ける。3つが成功する。すなわち、soft-AUCを最適化した線形方向は平均AUROC 0.98およびTPR@1
%FPR 0.80を達成する;クラス平均プローブは<1msの適合コストで0.98および0.71を達成する;教師ありの角度的偏差戦略はAUROC 0.96および代表表現上の異なる方向に沿ったTPR 0.61を達成する(射影ベースの解から73^\circ)。この戦略は、射影手法が崩壊する中間層における検出を唯一維持する。
検出は、拒否が外科的に取り除かれたabliteratedモデルを含むアライメント変種をまたいでも安定している。有害な意図と拒否行動は、表現の機能的に分離された特徴である。AdvBenchで適合した方向は、保持された(held-out)HarmBenchおよびJailbreakBenchへと、最悪ケースのAUROC 0.96で転移する。同様の構図はスケールでも成り立つ。Qwen3.5において0.8Bから9Bのパラメータ範囲を通して、AUROCは0.98を維持し、変種間転移は自己方向性能から0.018以内に収まる。
\geq
これは単純な説明と整合する。モデルは、一般的な言語理解の一部として、有害な意図の線形にデコード可能な表現を獲得し、アライメントは上流の認識シグナルを再編成することなく、そのような入力に対して何を行うかを形作る。実務上の帰結として、0.97+の領域におけるAUROCは、運用上の検出可能性を大幅に過大評価しうる。安全性に隣接した評価ではAUROCに加えてTPR@1\%FPRも併記すべきである。
LLMの残差ストリームにおける有害な意図の幾何学的に回復可能な特徴
arXiv cs.AI / 2026/4/22
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMの「有害な意図」が残差ストリームから幾何学的に回復可能であり、多くの層では線形方向として、射影ベースの手法が破綻する層では角度のずれとして現れると主張している。
- 4つのアーキテクチャ系統・3つのアライメント変種(ベース、インストラクションチューニング、アブリターテッド)を含む12モデルにおいて、有害な意図を検出するための3つの方向探索戦略で高いAUROC(おおむね0.96〜0.98)と低FPRでの良好な性能が示された。
- アライメントが変わっても検出は頑健であり、拒否行動が外科的に除去された「アブリターテッド」モデルでも有害な意図の検出が保たれたことから、有害な意図と拒否は表現内で機能的に分離していると示唆される。
- AdvBenchで学習した方向は、保持されたHarmBenchやJailbreakBenchへ良好に転移し、Qwen3.5での0.8B〜9Bパラメータ範囲でも結果が安定している。
- 著者らは、AUROCだけでは実運用での検出可能性を過大評価し得るため、安全性に関わる評価ではTPR@1%FPRのような指標も併記すべきだと警告している。



