潜在命令表現アラインメント:LLMにおけるジェイルブレイク、バックドア、望まれない知識への対抗

arXiv cs.LG / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、行動結果から学習するだけでなく、モデルが命令を解釈する仕方を変えることで、LLMをジェイルブレイク、バックドア、望まれない知識から防御するための手法「潜在命令表現アラインメント(LIRA)」を提案する。
  • LIRAはシナリオ間での一般化性能を高めるためにモデルを訓練し、著者らはさらに、内部で敵対的な学習アルゴリズムを用いてそれを改善している。
  • 報告された結果として、PEZジェイルブレイク攻撃の99%超を阻止すること、不正なコードのバックドアを除去すること、そしてWMDP cyberにおいて「最適な忘却」を達成しつつ、有害でない能力への劣化はごくわずかであることが示されている。
  • 本研究は、悪意のあるプロンプトに対するモデル挙動を条件付けして学習することに主に依存してきた従来アプローチに対し、命令表現アラインメントをより汎化可能な代替手段として位置づける。