インコンテキスト学習理論によるLLMのための継続的敵対学習（Continuous Adversarial Training）を理解し改善する

arXiv cs.LG / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMのジャイルブレイク防御のための継続的敵対学習（CAT）を研究し、LLM埋め込み空間における摂動が、トークン空間でのジャイルブレイクプロンプトに対抗し得る理由についての初めての理論的説明を提示する。
インコンテキスト線形回帰タスクに対する線形トランスフォーマを対象に、インコンテキスト学習理論を用いて検討し、頑健な一般化境界を証明する。その強さは、埋め込み空間での摂動半径が小さくなるほど向上する。
さらに、敵対的に訓練されたLLMの頑健性を、モデルの埋め込み行列の特異値（singular values）に結び付け、頑健性のための具体的なメカニズムを与える。
この理論に基づき、著者らは、特異値に依存した正則化項を追加して、ジャイルブレイク頑健性と有用性（ユーティリティ）のトレードオフを改善する、改良版CAT目的関数を提案する。
実世界のLLMに対する実験により、提案手法は有用性を過度に犠牲にすることなく、ジャイルブレイク頑健性を向上させることが示されており、あわせてコードも公開している。