言語モデルにおける分布外(OOD)入力の処理:2つの経路フレームワーク
arXiv cs.CL / 2026/5/4
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 既存のLLM向けホワイトボックス分布外(OOD)検出手法(CED、RAUQ、WildGuardの信頼度スコアなど)は、入力の系列長による構造的な交絡を受け得ており、長さを揃えた評価では見かけの優位性がほぼ消失することを示している。
- 著者らは、注目(attention)の生のエントロピーのようなベースライン指標でさえ同様の長さ依存を示し、その原因が注意機構の入力長 T に対するおおよそ Theta(log T) の依存にあると説明している。
- 交絡を取り除いた上で真のOODシグナルを見出すため、テキストが「何についてか」を捉える(埋め込み)経路と、「モデルがどう処理するか」を捉える(層をまたいだ隠れ状態の軌跡)経路の2経路フレームワークを提案している。
- 埋め込み特徴は語彙が明確に異なるOODに強く、通常文と同じ語彙を使い回すような秘匿意図入力(例:ジャイルブレイク)には、隠れ状態軌跡がより有効であることが示され、好ましい性能が報告されている。
- 支持として、複数タスクにおけるk-NN(埋め込み)と軌跡スコアリングの勝敗の入れ替わり、レイヤー別分析による「系列長アーティファクト」の特定、さらに敵対的タスクと意味タスクで注目回路の関与が異なることを示す回路帰属など、3つの証拠が提示されており、コードも公開予定(出版時)である。



