事後学習（ポストトレーニング）済みLLMの隠れた安全メカニズムを発見し再活性化する

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、大規模推論モデル（LRM）において、事後学習／ファインチューニングによって安全性が低下する理由を分析し、それが基盤LLMの本来の安全メカニズムを抑制しつつ、事後学習能力に結び付いた表現を増幅し得ることを示す。
隠れた安全行動は事後学習によって完全に除去されるのではなく、むしろマスクされるだけであり、回復できる可能性があることを見出す。
著者らは「SafeReAct」を提案する。これは、少数の層に限定してLoRAアダプタと整合させることで抑制された安全行動を復元する、軽量かつコスト効率の高い手法である。
最先端の4つのLRMに対する実験により、有害なプロンプトに対して推論性能を損なうことなく安全性が大幅に改善することを示し、他のドメイン特化モデル（例：医療）での結果から、このアプローチがLRMの枠を超えて汎化できることも示唆される。

概要: 汎用の大規模言語モデル（LLM）の目覚ましい性能にもかかわらず、それらが特定のタスクで優れた能力を発揮するには、しばしば微調整や追加の事後学習が必要になります。たとえば、DeepSeek-R1シリーズのような大規模推論モデル（LRM）は、さまざまなチェーン・オブ・ソート（CoT）データセットで異なる汎用の大規模言語モデルを事後学習した後に強い推論能力を示します。しかし、この追加学習は、通常のLLMと比較すると、微調整または事後学習されたモデルのほうがより有害な振る舞いを示す傾向があるため、安全性が低下するという代償を伴うことがよくあります。強化された能力により、有害な結果につながる可能性があります。本論文では、LRMを例に取り、この安全性の劣化の根本原因をまず調査します。分析の結果、事後学習は基盤となるLLMの元の安全メカニズムを覆い隠す一方で、事後学習能力に関連する表現を過度に増幅してしまうことが分かりました。しかし幸いなことに、LRMの安全メカニズムは事後学習の間に削除されるのではなく、依然として存在することも見出しました。これらの発見に基づき、少数の層におけるLoRAアダプタとの整合を通じて、抑制された安全な振る舞いを復元する、軽量で費用対効果の高い解決策であるSafeReActを提案します。最先端のLRM 4つに対する実験により、本手法は推論性能を損なうことなく、有害なプロンプトに対する安全性を大幅に改善できることを示しました。さらに、医療モデルのような他の領域特化型LLMに関する追加結果からも、本アプローチの一般性と有効性が裏付けられています。

StrongSORT: DeepSORTが強くなって帰ってきた！アップグレードされた追尾モデル！

AI-SCHOLAR

話題のコンテキストエンジニアリング、日本企業が後れを取る根深い理由

日経XTECH

バッチ型深層強化学習アルゴリズムのベンチマーク

Dev.to

Qwen3.6-Plus：AI競争で静かに存在感を示すアリババの巨人、百万トークン級のエンタープライズ級パワーを提供

Dev.to

バックオフィスの人員最適化にAIを活用する方法

Dev.to

事後学習（ポストトレーニング）済みLLMの隠れた安全メカニズムを発見し再活性化する

要点

関連記事

StrongSORT: DeepSORTが強くなって帰ってきた！アップグレードされた追尾モデル！

話題のコンテキストエンジニアリング、日本企業が後れを取る根深い理由

バッチ型深層強化学習アルゴリズムのベンチマーク

Qwen3.6-Plus：AI競争で静かに存在感を示すアリババの巨人、百万トークン級のエンタープライズ級パワーを提供

バックオフィスの人員最適化にAIを活用する方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer