概要: 大規模言語モデルは、安全性のアラインメントを維持しつつ新しいタスクに継続的に適応する必要がある。しかし、たとえ良性のデータであっても微調整(ファインチューニング)を行うと、多くの場合、有害な要求の拒否、真実性(truthfulness)、常識的推論といった安全性の振る舞いが損なわれる。本研究では、データ中心の観点から、どの学習サンプルがアラインメントのドリフト(ずれ)を引き起こすのかを調査する。実験的分析の結果、サンプルは不均等に寄与することが分かった。高勾配サンプルは安全性の劣化をより大きく引き起こし、モデルを事前学習済み分布へと押し戻す。一方、中程度の勾配サンプルは、アラインメントの損失を最小限に抑えながらタスク学習を可能にする。そこで我々は、微調整中に高勾配サンプルをフィルタリングする勾配ベースのサンプル選択手法を提案する。継続的なドメイン課題における複数のモデルファミリに対して、本手法は、競争力のあるタスク性能を維持しつつ、アラインメント保存を大幅に改善する。さらに、厳選した安全データやアーキテクチャの修正を必要としない。本手法は、選択比率、タスクの順序付け、そして多様な攻撃ベンチマークに対して頑健である。
勾配ベースのサンプル選択による継続的な安全アラインメント
arXiv cs.LG / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模言語モデルを継続的に微調整する際にアラインメントがずれる(アラインメント・ドリフト)ことで、危険な依頼への拒否、真実性、常識推論といった安全行動が劣化しうる点を扱います。
- 実験では、学習サンプルがドリフトに与える影響が不均一であることが示されます。高い勾配を持つサンプルは安全アラインメントをより大きく損ない、事前学習分布へ引き戻す傾向があり、一方で中程度の勾配サンプルはアラインメント損失を抑えつつ課題学習を支えます。
- 著者らは、微調整中に高勾配サンプルを除外する勾配ベースのサンプル選択手法を提案し、安全アラインメントの維持を狙います。
- 複数のモデルファミリと継続的ドメイン課題において、アラインメントの保持が大きく改善され、かつ課題性能は競争力を維持すると報告されています。
- 手法は、選択比率、タスク順序、さまざまな攻撃ベンチマークに対しても頑健であると述べられています。
