熟慮型アライメントは深いが不確実性は残る:推論における推論時の安全性改善—不安全な行動を基盤モデルに帰属させることで
arXiv cs.LG / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、拒否トレーニングや初期の「熟慮型アライメント」アプローチは浅い可能性があり、より強力な教師モデルと学生モデルの間にアライメントのギャップが残ることで、安全性と汎用的な有用性の双方に影響が及ぶと主張する。
- 熟慮型アライメントによって学生が推論パターンを学んだ後でも、基盤となるベースモデルに由来する不安全な振る舞いを依然として保持し得ることを見出す。
- これに対処するため、著者らはBoN(sampling)手法を提案する。これは潜在空間において不安全な振る舞いを明示的にベースLLMへと帰属させ、不安全な応答をダウンランクする。
- 7つの教師モデルと6つの学生モデルにまたがる実験では、複数の安全ベンチマークにおける攻撃成功率が大幅に低減したと報告される(例:DANで約28.2%、WildJailbreakで約31.3%、StrongREJECTで約35.4%)。
- 本研究は、これらの安全性向上がRLトレーニング後も持続することを示し、「安全な推論」がどのように伝達(転移)されるのかについての不確実性がなお残ること、そして不安全な振る舞いの発生源を追跡することの重要性を強調している。




