過剰拒否と表現サブスペース：整列（アライン）LLMにおけるタスク条件付き拒否のメカニズム分析

arXiv cs.CL / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、整列（アライン）されたLLMが「過剰拒否」を示しうる理由を調査し、無害な指示であっても、危険なものと形式が似ている場合に誤って拒否してしまうことを扱う。
単純なグローバルな拒否方向のアブレーション（除去）は、過剰拒否を偶然的に改善することはあるものの、より広いレベルの“タスクごとの拒否メカニズム”を保持できないため不十分だと主張する。
メカニスティックな分析では、危険な拒否方向は概ねタスクに依存せず、単一のグローバルなベクトルでよく近似できる一方で、過剰拒否の方向はタスク依存であり、より高次元のサブスペースを占めることが示唆される。
線形プロービングの結果、拒否行動の2種は表現上で明確に異なり、早期の層では捉えられず、より後段のトランスフォーマ層で現れることが示される。
著者らは、過剰拒否の修正には、万能な方向の除去ではなく、タスク固有の幾何学的介入が必要になる可能性が高いと結論づける。