結合された重みと活性制約による大規模言語モデルにおける安全性のドリフト防止

arXiv cs.AI / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、微調整が一見無害に見えても、LLMの安全性アライメントが低下しうることを扱っており、その結果として拒否行動が弱まり、有害な出力が増加することを示しています。
  • 重みのみ、あるいは活性のみを制約するだけでは、安全性特性を一貫して維持できません。安全性は結合した効果から生じるためだと、理論的に主張し、またそれを実証しています。
  • 結合された重みと活性制約(CWAC)を提案します。CWACは、事前に計算した安全性サブスペースへの重み更新を同時に制限し、さらにスパースオートエンコーダにより特定された安全性に重要な特徴に対して正則化を適用します。
  • 4種類の代表的なLLMに対し、下流タスクをさまざまに変えて実験したところ、CWACは微調整精度を概ね維持しつつ、最も低い有害スコアを達成しました。有害データの比率が高い場合でも、確立されたベースラインを上回ります。