(不)整列の技法:ポストトレーニングにおける微調整手法がLLMを効果的にミスアライン(不整列)させ、再整列(リアライン)する方法
arXiv cs.CL / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、一般的なLLMの微調整アプローチが、安全性の「ミスアライン(不整列)」を作り出すことにも、ポストトレーニング後に「リアライン(再整列)」してモデルを修正することにも使えることを調査し、敵対的な悪用リスクに対処します。
- 複数の安全性アライン済みLLMと、4つのSFTおよび2つのPFT手法の集合を対象に著者らが見出したのは非対称性です。すなわち、ORPOはミスアライン攻撃に最も有効であり、DPOが最も優れたリアライン(再整列)をもたらす、という結果です。
- DPOによるリアラインの改善は、モデル全体の有用性(ユーティリティ)にトレードオフを伴う可能性があり、性能と安全性のバランス問題が示唆されます。
- さらに、モデル固有の耐性や、複数ラウンドの敵対的ダイナミクスに由来する残留効果も観測され、防御は反復的な相互作用に対して、個別化されかつ頑健である必要があることを示しています。
- 本研究は、信頼できない第三者のLLMを導入するには追加のセーフガードと、カスタマイズされた安全性アラインメント戦略が必要であると結論づけており、実験のための付随コードも提供しています。




