ログイット空間におけるガードレール：LLMアライメントのための安全トークン正則化

arXiv cs.LG / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、良好に整列（アライメント）されたLLMを新しい領域でファインチューニングすると、安全性のアライメントが、たとえ良性のデータセットであっても劣化し得ると主張している。
提案手法であるSafety Token Regularization（STR）は、良好に整列したモデルのリジェクション・テンプレートから重要なトークンを特定し、それらに対応するロジットを学習中に制約することで、安全に関わる重要な挙動の喪失を防ぐ。
STRは、強化学習や嗜好最適化と比べて軽量で追加計算が少なく、LoRAのようなパラメータ効率の高いファインチューニングにも自然に組み込めるとされる。
実験では、STRが安全性について最先端手法と同等の性能を達成しつつ、タスク有用性を維持できることに加え、安定した学習や安全性以外の全体性能向上も示されている。
著者らは、ファインチューニング済みLLMに対する継続的な安全アライメントのための、実用的で導入しやすい戦略としてSTRを提示している。

要旨: 新しいドメインに対して十分に整列（アライン）された大規模言語モデル（LLM）をファインチューニングすると、安全性の整列がしばしば劣化します。良性（ベニグン）なデータセットを用いる場合でさえそうです。既存の安全性整列手法は主に事前学習に焦点を当てており、ファインチューニング済みモデルは振る舞いの変化に対して脆弱なままです。本研究では、ファインチューニング中に安全性の性質を保持することを目的とした軽量な手法である、安全トークン正則化（STR）を導入します。我々のアプローチは、十分に整列されたモデルの拒否テンプレートから重要なトークンを特定し、学習中にそれらに対応するロジットを制約することで、重要な安全挙動の喪失を防ぎます。強化学習や嗜好最適化の方法とは異なり、STRは最小限の追加計算しか必要とせず、LoRAのようなパラメータ効率の高いファインチューニング技術にシームレスに統合できます。包括的な実験により、本手法が最先端手法と同等の安全性性能を達成しつつ、タスク固有の有用性を保持し、実装に伴うオーバーヘッドも最小限に抑えられることを示します。さらに、安全トークン正則化は、安全性の考慮だけでなく、学習の安定性と全体的な性能も向上させることを示します。本研究は、ファインチューニング済みLLMに対する継続的な安全性整列のための、実用的で即時に導入可能な戦略を提供します。