AI Navigate

GR-SAP: ファインチューニング時の安全性アラインメントを保持するための生成リプレイ

arXiv cs.CL / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • GR-SAPは、下流のファインチューニング時に安全性アラインメントを保持するため、LLMsからドメイン固有のアラインメントデータを合成する統一的な生成リプレイフレームワークを提案します。
  • このアプローチは、元のアラインメントデータが入手困難であるという問題に対処し、合成データが訓練中の信頼できる代理データとして機能することを示します。
  • 論文は、複数のモデルとタスクにわたる理論的および経験的分析を提供し、GR-SAPが安全性の低下を大幅に緩和しつつ下流の性能を維持することを示します。
  • コードはGitHubで公開されており、手法の実装と再現を可能にします。
要約: 最近の研究は、大規模言語モデル(LLMs)の安全性アラインメントが、見かけ上非敵対的なファインチューニングによっても容易に損なわれ得ることを示しています。ファインチューニング時に安全性アラインメントを維持するための広く用いられている戦略は、元のアラインメントデータを混ぜて安全性とタスクの目的を同時に最適化することですが、元のデータはオープンウェイトのLLMでさえ通常は入手できません。継続学習における生成リプレイに着想を得て、GR-SAP(Generative Replay for Safety Alignment Preservation)を提案します。これは、LLMsからドメイン特有のアラインメントデータを合成し、下流の適応時にそれらを統合して安全性アラインメントを保持する統一フレームワークです。理論的および経験的分析は、この合成データが元のアラインメントデータの信頼できる代理として機能することを示しています。さまざまなモデルと下流タスクにわたる実験は、GR-SAPがファインチューニングによる安全性の劣化を大幅に緩和しつつ、下流の性能を同等に維持することを示しています。私たちのコードは https://github.com/chili-lab/gr-sap にあります。