言語モデルにおける分布外(OOD)入力の処理:2つの経路フレームワーク

arXiv cs.CL / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 既存のLLM向けホワイトボックス分布外(OOD)検出手法(CED、RAUQ、WildGuardの信頼度スコアなど)は、入力の系列長による構造的な交絡を受け得ており、長さを揃えた評価では見かけの優位性がほぼ消失することを示している。
  • 著者らは、注目(attention)の生のエントロピーのようなベースライン指標でさえ同様の長さ依存を示し、その原因が注意機構の入力長 T に対するおおよそ Theta(log T) の依存にあると説明している。
  • 交絡を取り除いた上で真のOODシグナルを見出すため、テキストが「何についてか」を捉える(埋め込み)経路と、「モデルがどう処理するか」を捉える(層をまたいだ隠れ状態の軌跡)経路の2経路フレームワークを提案している。
  • 埋め込み特徴は語彙が明確に異なるOODに強く、通常文と同じ語彙を使い回すような秘匿意図入力(例:ジャイルブレイク)には、隠れ状態軌跡がより有効であることが示され、好ましい性能が報告されている。
  • 支持として、複数タスクにおけるk-NN(埋め込み)と軌跡スコアリングの勝敗の入れ替わり、レイヤー別分析による「系列長アーティファクト」の特定、さらに敵対的タスクと意味タスクで注目回路の関与が異なることを示す回路帰属など、3つの証拠が提示されており、コードも公開予定(出版時)である。

Abstract

LLMに対する最近のホワイトボックスOOD検出手法—CED、RAUQ、WildGuardの信頼度スコアを含む—は有効であるように見えるが、我々はそれらが構造的に系列長によって混同(confounded)されていることを示す(|r| >= 0.61)。さらに、長さを一致させた評価の下では、それらはほぼ偶然(chance)に崩れ落ちる。含めた完全性のための自然なベースラインである、生の注意エントロピー(ヘッドと層をまたいだ平均H(alpha))も同様の混同を示す。この混同は、注意が入力長に対して持つTheta(log T)依存に起因する。混同を取り除いた後に真のOOD信号を同定するため、我々は二経路(two-pathway)フレームワークを提案する。埋め込み(embeddings)はテキストが何についてかを捉える(話題の変化に有効)一方で、処理軌跡—層を跨いだ隠れ状態の推移—はモデルが入力をどのように処理するかを捉える。各経路の相対的な強さは、語彙の透明性(vocabulary-transparency)スペクトルに沿って変化する。埋め込み手法は語彙が識別的なOODに優れ、軌跡(trajectory)特徴は通常テキストと語彙を共有する秘匿意図(covert-intent)入力を検出する(平均AUROC: 0.721;Jailbreak: 0.850)。このフレームワークを支持する3つの証拠ラインがある。(1) 6つのタスクにおいてk-NNと軌跡スコアリングの間で交差が見られ、各経路が異なる種類のOODで勝つこと。(2) 層ごとの分析により、層0のk-NN信号はほぼ完全に長さのアーティファクトであること(Jailbreak: 0.759(生)-> 0.389(一致))。これにより、処理が偶然に近い埋め込みから真のOOD信号を構築すること。(3) 回路帰属(circuit attribution)により、敵対的タスクは意味的タスクよりも注意回路をより強く活性化することが示される(p = 0.022;Jailbreakのパッチ適用:p < 0.001)、さらに部分的なモデル間での再現がある。公開時にコードをリリース。