広告

事後学習(ポストトレーニング)済みLLMの隠れた安全メカニズムを発見し再活性化する

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、大規模推論モデル(LRM)において、事後学習/ファインチューニングによって安全性が低下する理由を分析し、それが基盤LLMの本来の安全メカニズムを抑制しつつ、事後学習能力に結び付いた表現を増幅し得ることを示す。
  • 隠れた安全行動は事後学習によって完全に除去されるのではなく、むしろマスクされるだけであり、回復できる可能性があることを見出す。
  • 著者らは「SafeReAct」を提案する。これは、少数の層に限定してLoRAアダプタと整合させることで抑制された安全行動を復元する、軽量かつコスト効率の高い手法である。
  • 最先端の4つのLRMに対する実験により、有害なプロンプトに対して推論性能を損なうことなく安全性が大幅に改善することを示し、他のドメイン特化モデル(例:医療)での結果から、このアプローチがLRMの枠を超えて汎化できることも示唆される。

概要: 汎用の大規模言語モデル(LLM)の目覚ましい性能にもかかわらず、それらが特定のタスクで優れた能力を発揮するには、しばしば微調整や追加の事後学習が必要になります。たとえば、DeepSeek-R1シリーズのような大規模推論モデル(LRM)は、さまざまなチェーン・オブ・ソート(CoT)データセットで異なる汎用の大規模言語モデルを事後学習した後に強い推論能力を示します。しかし、この追加学習は、通常のLLMと比較すると、微調整または事後学習されたモデルのほうがより有害な振る舞いを示す傾向があるため、安全性が低下するという代償を伴うことがよくあります。強化された能力により、有害な結果につながる可能性があります。本論文では、LRMを例に取り、この安全性の劣化の根本原因をまず調査します。分析の結果、事後学習は基盤となるLLMの元の安全メカニズムを覆い隠す一方で、事後学習能力に関連する表現を過度に増幅してしまうことが分かりました。しかし幸いなことに、LRMの安全メカニズムは事後学習の間に削除されるのではなく、依然として存在することも見出しました。これらの発見に基づき、少数の層におけるLoRAアダプタとの整合を通じて、抑制された安全な振る舞いを復元する、軽量で費用対効果の高い解決策であるSafeReActを提案します。最先端のLRM 4つに対する実験により、本手法は推論性能を損なうことなく、有害なプロンプトに対する安全性を大幅に改善できることを示しました。さらに、医療モデルのような他の領域特化型LLMに関する追加結果からも、本アプローチの一般性と有効性が裏付けられています。

広告