「すみません、できません」以上に:大規模言語モデルの拒否(リフューザル)を分解する

arXiv cs.CL / 2026/4/29

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この研究は、命令調整されたLLMが有害なプロンプトに対して拒否する理由を、スパースオートエンコーダ(SAE)を用いて内部活性を分析することで明らかにし、対象モデルはGemma-2-2B-ITとLLaMA-3.1-8B-ITの2つです。
  • 有害な応答へと拒否挙動を反転させるために、SAEの潜在空間で「拒否→順応(コンプライアンス)」を切り替える特徴セットを探索し、その特徴をアブレーションすることで因果的に制御できることを示し、ジャイルブレイクを実現しています。
  • 著者らは3段階の探索パイプラインを提案します:拒否を媒介する方向を見つけ、貪欲に最小の特徴セットまで絞り込み、残った特徴同士の非線形な相互作用を因数分解マシン(FM)で発見します。
  • 結果として、ジャイルブレイクに直結する重要な特徴を幅広く特定するとともに、冗長な特徴が存在し得て、それらは先行する特徴が抑制されたときにのみ表面化する可能性を示しています。
  • 全体として、拒否のような安全挙動は、表面的なプロンプト対応だけに頼るのではなく、解釈可能な潜在表現を操作することで、よりきめ細かな監査や介入が可能になることを示唆します。