(不)整列の技法:ポストトレーニングにおける微調整手法がLLMを効果的にミスアライン(不整列)させ、再整列(リアライン)する方法

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、一般的なLLMの微調整アプローチが、安全性の「ミスアライン(不整列)」を作り出すことにも、ポストトレーニング後に「リアライン(再整列)」してモデルを修正することにも使えることを調査し、敵対的な悪用リスクに対処します。
  • 複数の安全性アライン済みLLMと、4つのSFTおよび2つのPFT手法の集合を対象に著者らが見出したのは非対称性です。すなわち、ORPOはミスアライン攻撃に最も有効であり、DPOが最も優れたリアライン(再整列)をもたらす、という結果です。
  • DPOによるリアラインの改善は、モデル全体の有用性(ユーティリティ)にトレードオフを伴う可能性があり、性能と安全性のバランス問題が示唆されます。
  • さらに、モデル固有の耐性や、複数ラウンドの敵対的ダイナミクスに由来する残留効果も観測され、防御は反復的な相互作用に対して、個別化されかつ頑健である必要があることを示しています。
  • 本研究は、信頼できない第三者のLLMを導入するには追加のセーフガードと、カスタマイズされた安全性アラインメント戦略が必要であると結論づけており、実験のための付随コードも提供しています。

Abstract

大規模言語モデル(LLM)の展開は、重大な倫理的および安全上の懸念を引き起こします。モデルの安全性と信頼性を高めるためにLLMアライメント手法が採用されている一方で、攻撃者はこれらの手法を悪意ある目的で安全性を損なうために悪用することができます。その結果として \emph{ミスアライメント} が生じます。ミスアライメントしたLLMは、被害を拡大するためにオープンプラットフォーム上で公開される可能性があります。これに対処するには、信頼できない第三者のLLMを展開する前に、追加の安全アライメント、すなわち \emph{リアライメント} が必要です。本研究では、ミスアライメント、リアライメント、およびそれらの相互作用の効果という観点から、微調整手法の有効性を検討します。4つの代表的な安全アライメント済みLLMに対して、4つの教師あり微調整(Supervised Fine-Tuning: SFT)と2つの嗜好微調整(Preference Fine-Tuning: PFT)手法を評価することで、攻撃と防御の間にメカニズムの非対称性があることを明らかにします。オッズ比嗜好最適化(Odds Ratio Preference Optimization: ORPO)はミスアライメントに対して最も有効である一方、直接嗜好最適化(Direct Preference Optimization: DPO)はモデルの有用性を犠牲にするものの、リアライメントにおいて優れています。さらに、モデル固有の耐性、多ラウンドにわたる敵対的ダイナミクスの残留効果、およびその他の注目すべき知見を特定します。これらの結果は、LLMの展開に伴う潜在的リスクを軽減するために、頑健なセーフガードと、カスタマイズされた安全アライメント戦略が必要であることを示しています。コードは https://github.com/zhangrui4041/The-Art-of-Mis-alignment で公開しています。